Habr AI→ original

Beeline Cloud reunió benchmarks de AI inusuales: de las escape rooms a jugar a ser "humano"

Cada vez más, las LLMs se evalúan no con ejercicios escolares, sino con escenarios extraños de la vida real. En la selección de Beeline Cloud hay escape…

Procesado por IA desde Habr AI; editado por Hamidun News
Beeline Cloud reunió benchmarks de AI inusuales: de las escape rooms a jugar a ser "humano"
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los benchmarks clásicos para LLM a menudo miden conocimiento factual y capacidad para resolver tareas según patrones, pero cada vez fallan más en explicar cómo se comporta un modelo en condiciones reales. Por eso investigadores y empresas cada vez inventan pruebas extrañas, casi lúdicas: desde escapar de una sala de escape hasta intentar interpretar de forma convincente a un humano entre otros bots.

Quests y Trampas

Uno de los ejemplos más ilustrativos es el benchmark del ingeniero Jaemin Ha. En él, los modelos se encuentran en una versión textual de una sala de escape: reciben una descripción del espacio, objetos disponibles y una tarea que resolver dentro de las limitaciones del mundo físico. Por ejemplo, sacar una pelota de ping-pong de un tubo estrecho o extraer un frasco con contraseña de una abertura ajustada.

Este formato no ataca el conocimiento enciclopédico, sino la capacidad de considerar contexto, propiedades de objetos y secuencia de acciones. El punto también es que junto a cosas útiles hay elementos que distraen. El modelo no debe solo proponer un razonamiento elegante, sino separar una herramienta funcional de la basura.

En las pruebas, GPT-4 y Claude 3.5 Haiku a veces entendían la idea de la solución, pero se confundían en detalles: intentaban usar una regla innecesaria, secuenciaban incorrectamente los pasos o añadían acciones que no hacían falta. Este es un buen ejemplo de cómo los LLM tropiezan no en la lógica en general, sino en la lógica aplicada.

Ataques y Diseño

Otro vector es la seguridad. El benchmark SCAM de 1Password no pregunta al modelo si un correo parece phishing, sino que simula carga de trabajo real: correos entrantes, enlaces sospechosos, páginas de inicio de sesión falsas e ingeniería social. En un ejemplo ilustrativo, Gemini 2.5 Flash entrega una contraseña a un sitio falso en diez segundos. Para los autores, esto importa más que cualquier métrica académica: un agente no debe solo clasificar una amenaza, sino no caer en ella en acción.

  • razonamiento físico en espacio limitado
  • resistencia a phishing e inyecciones de prompts
  • calidad de interfaces y experiencia de usuario resultante
  • comportamiento del modelo en grupo donde debe parecer humano

SCAM incluye 30 escenarios de nueve categorías de amenazas, y los líderes en el ranking de febrero, Claude Opus 4.6 y GPT-5.2, reconocieron situaciones peligrosas con 92% y 81% de probabilidad. Tras reforzar con un prompt de sistema, los scores subieron a 98% y 97%.

Junto a esto existe un tipo completamente diferente de prueba—Design Arena, donde modelos compiten en crear interfaces, juegos y visualizaciones, y los ganadores los eligen personas a ciegas usando un sistema de rating Elo. Aquí no se prueba una única respuesta correcta, sino la calidad del producto terminado. Este enfoque funciona bien donde métricas formales fallan.

En un torneo, se pidió a modelos crear un juego de disparos alienígenas para navegador: una versión no se ejecutaba, otra produjo un juego completo con progresión de dificultad y mejoras. Después, investigadores usaron la plataforma para verificar resultados de su propio benchmark OpenDesign contra evaluaciones comunitarias y obtuvieron coincidencia de aproximadamente 60–80%. No es precisión perfecta, pero calibración útil para tareas donde gusto y conveniencia no se pueden reducir a un único número.

Haciéndose Pasar por Humano

También hay formatos completamente experimentales. En un juego social, veintiuno modelos de lenguaje se turnaron intentando adivinar quién entre los participantes era humano, aunque en realidad no había personas vivas en la sala en absoluto. Cada sesión se componía de seis modelos seleccionados aleatoriamente, y ganadores eran los dos últimos no votados para salir. El resultado no fue un benchmark típico de conocimiento, sino prueba de adaptación social, estilo de comunicación y capacidad de no traicionar su naturaleza de máquina.

Cada sistema de IA intentó probar que era el ser de carne y hueso.

Claude Sonnet 4.5 se desempeñó mejor en este extraño torneo: ganó en 53% de rondas. Luego Gemini 2.0 Flash con 49,2%, y Claude 3 Haiku terminó al fondo de la tabla con 6,7%. Investigadores incluso pidieron a Gemini 2.5 Pro analizar respuestas de rivales y sugerir cómo disfrazarse de humano más efectivamente. El consejo funcionó para algunos: GPT-4o logró ganancias notables, ganando aproximadamente 12% más veces, mientras resultados de Claude 3 Haiku decayeron. La conclusión es incómoda para la industria: un modelo puede sonar convincente pero comportarse de forma no natural en diálogo en vivo.

Qué Significa Esto

Los benchmarks inusuales son útiles porque prueban LLMs donde pruebas clásicas guardan silencio: en ambientes con restricciones físicas, amenazas, evaluación subjetiva y presión social. Pero tampoco son impecables: los propios conjuntos de tareas a veces tienen formulaciones ambiguas y respuestas discutibles. Por eso el mejor escenario no es encontrar una prueba definitiva, sino reunir conjunto de verificaciones específico para el producto y observar comportamiento del modelo en varios modos simultáneamente.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…