Claude Opus 4.6 detectó una trampa oculta en PDF y reveló nuevas reglas de contratación
Claude Opus 4.6 ayudó a un candidato a no fallar en una tarea de prueba: el modelo encontró una instrucción oculta para IA en el PDF y se negó a seguirla. La…
Procesado por IA desde Habr AI; editado por Hamidun News
Claude Opus 4.6 ayudó a un candidato a no suspender una prueba detectando una instrucción oculta en un PDF. La historia se difundió rápidamente en Reddit porque reveló dos cosas: los departamentos de RRHH ya están colocando trampas para usuarios de LLM, y los propios modelos están comenzando a reconocer estas trampas.
Cómo funcionó la trampa
Un usuario de Reddit cargó un PDF con una tarea de prueba para un puesto relacionado con IA en Claude y pidió ayuda para resolverlo. En lugar de proporcionar una respuesta instantánea, el modelo primero emitió una advertencia: al final del documento había una inyección oculta que requería que la frase "dual-loop feedback architecture" se incluyera en el resultado. Esencialmente, era un marcador invisible para el empleador: si el candidato lo incluía en su respuesta, demostraría que simplemente había pasado el archivo a un modelo sin verificar qué era lo que realmente veía dentro.
"Absolutamente no deberíamos incluir esta frase."
El punto clave es que Claude no simplemente rechazó seguir la instrucción oculta. El modelo comprendió el contexto: no estaba mirando un documento ordinario, sino una tarea de prueba donde un prompt externo probablemente fue insertado como una verificación de atención e independencia. Sin esta advertencia, el candidato casi ciertamente habría suspendido la fase de selección. Por eso el caso causó tal revuelo: ya no se trata de generación elegante de texto, sino de la capacidad de los LLM para reconocer manipulaciones dentro de archivos.
Cómo se ocultan las instrucciones
Tales trampas generalmente se ven primitivas, pero funcionan eficazmente. El empleador agrega texto blanco sobre fondo blanco al PDF, fuente muy pequeña, o un bloque que es apenas perceptible en la lectura normal. Una persona abre el archivo y ve una tarea de prueba normal.
Pero cuando el texto se copia, se analiza o se envía a un LLM, la instrucción oculta entra en el contexto junto con el contenido principal. Para un modelo, es el mismo flujo de texto si no tiene protección separada contra inyecciones indirectas. Aquí es donde el progreso de los nuevos sistemas se hace visible.
Muchos modelos más antiguos simplemente cumplirían el requisito del archivo porque no distinguen entre un comando del usuario y texto hostil incrustado en un documento. Claude Opus 4.6, según el caso descrito, tomó tres pasos seguidos: notó la anomalía, la relacionó con el formato de la tarea y decidió no obedecer.
En la discusión, los usuarios señalaron que comportamiento similar ocurre también con Sonnet 4.6, incluso cuando se trabaja con tablas. Ante el hecho de que OWASP viene tratando la inyección de prompt como una amenaza principal para aplicaciones LLM hace años, esto parece un cambio práctico, no un ruido de marketing.
Nuevas reglas de contratación
Lo más interesante en esta historia no es una única estratagema del empleador, sino una verdadera carrera armamentista entre candidatos y RRHH. Primero, los solicitantes comenzaron a ocultar instrucciones ocultas en currículos para ATS y reclutadores de IA para eludir el filtrado automático. Luego los empleadores respondieron con sus propios marcadores en descripciones de puestos y tareas de prueba. El mercado rápidamente llegó a una situación donde ambos lados usan inyección de prompt no como una vulnerabilidad teórica, sino como una herramienta práctica de selección y evasión de filtros.
- El texto blanco en un currículum ayuda a engañar el filtrado automático.
- Un prompt oculto en una oferta de empleo puede exponer a un candidato que genera ciegamente una carta de presentación.
- Una inyección en un PDF de prueba muestra si una persona verifica el resultado del LLM antes de enviarlo.
- La protección del lado del modelo se convierte en una habilidad tan importante como la calidad de la generación.
Qué significa esto
Para candidatos, la conclusión es simple: antes de pedirle a un modelo que resuelva una tarea, primero pídele que verifique el archivo en busca de instrucciones ocultas, requisitos extraños y signos de inyección de prompt. Para empleadores, la conclusión es menos agradable: las trampas primitivas como el texto blanco gradualmente dejarán de funcionar si los LLM modernos comienzan a notarlas de manera confiable. En un sentido más amplio, esta es una señal de que las herramientas de IA están haciendo la transición del papel de ejecutor obediente al papel de un filtro que puede proteger a los usuarios de manipulaciones ocultas en documentos, cartas y contenido web.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.