Habr AI→ original

DeepSeek y GLM-5 superaron a Yandex en una prueba de 34 modelos de AI para gerentes sin VPN

Una gran prueba de 34 modelos en tareas de gestión mostró que, sin VPN en Rusia, los que mejor funcionan son GLM-5, DeepSeek V3.2 y DeepSeek R1. La brecha…

Procesado por IA desde Habr AI; editado por Hamidun News
DeepSeek y GLM-5 superaron a Yandex en una prueba de 34 modelos de AI para gerentes sin VPN
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Los autores de una gran prueba evaluaron 34 modelos de IA en tareas típicas de gerente y examinaron por separado cuáles se pueden utilizar en Rusia sin VPN. La principal conclusión resultó incómoda para los actores locales: los modelos chinos tuvieron el mejor desempeño, mientras que las soluciones de Yandex quedaron lejos de los líderes.

Líderes sin VPN

El estudio se basó no en puntos de referencia abstractos, sino en 32 escenarios prácticos: desde correos electrónicos para socios y planes de proyectos hasta análisis de informes, priorización, contratación y adaptación al contexto ruso. Todas las solicitudes se realizaron en ruso sin ingeniería de prompts, como lo haría un gerente típico. Las respuestas fueron evaluadas por dos modelos árbitros separados y consolidadas en una puntuación general en una escala del 1 al 5. Este enfoque estaba diseñado para mostrar cómo se comportan los modelos en un entorno laboral normal, no en un laboratorio.

  • GLM-5 — 4,50 puntos, chat gratuito y primer lugar en tareas de gestión de equipos
  • DeepSeek V3.2 — 4,41 puntos, chat gratuito y API muy económico
  • DeepSeek R1 — 4,31 puntos, más fuerte en análisis gracias al modo de razonamiento
  • Mistral Large — 4,25 puntos, opción sólida con chat y API

Después de la actualización del 17 de marzo de 2026, GLM-5 se agregó a la clasificación y se eliminó la suposición incorrecta sobre la disponibilidad de Grok sin VPN. En la versión actual del artículo, GLM-5 ocupó el primer lugar entre los modelos accesibles, y DeepSeek V3.2 se estableció como la opción más práctica en términos de relación calidad-precio-accesibilidad. Los autores enfatizan específicamente que la diferencia entre niveles no se siente en el papel, sino en la práctica: los modelos fuertes proporcionan respuestas que se pueden utilizar casi de inmediato.

Brecha con el top global

Para entender el techo real de calidad, los autores compararon modelos accesibles con aquellos bloqueados en Rusia. El top global incluyó Claude Sonnet 4.5, GPT-5.2 Pro y Claude Opus 4.5 con un resultado promedio de alrededor de 4,78 puntos. Los mejores modelos accesibles sin VPN obtuvieron una puntuación promedio de 4,36. Esta es una diferencia de aproximadamente 0,4 puntos: no un abismo, sino una transición de la categoría "excelente" a "bueno".

"La respuesta 'depende de la tarea' es honesta, pero inútil."

Sin embargo, la brecha se distribuye de manera desigual. En planificación y resolución de problemas, los modelos accesibles casi alcanzan el top global: el rezago es de solo 0,1–0,2 puntos y a menudo pasa desapercibido en la práctica. La situación es peor en tarefas de capacitación y desarrollo de empleados — por ejemplo, cuando necesita crear un plan de carrera, un programa de mentoría o recomendaciones de crecimiento. Aquí el rezago alcanza media punto, por lo que las respuestas deben verificarse con más cuidado. Es aquí donde se hace evidente la diferencia en la profundidad del razonamiento y la adecuación de los consejos.

Por qué Yandex perdió

El fracaso más notable del estudio estuvo relacionado con Yandex. El mejor modelo de la empresa, Alice AI LLM, obtuvo 3,84 puntos y cayó solo al tercer escalón, por debajo de DeepSeek, Mistral e incluso MiMo v2 Flash de Xiaomi. Aún más revelador es el resultado en la categoría de especificidad regional, donde se probaron la ley laboral rusa, el cumplimiento local y el contexto cultural.

Allí Alice obtuvo 3,68 frente a 4,56 para GPT-5.2 y 4,34 para DeepSeek V3.2.

Los autores lo explican simplemente: para tareas empresariales, el poder analítico de un modelo importa más que el hecho de haber sido entrenado con contenido ruso. En otras palabras, un buen modelo global que funciona razonablemente bien con ruso puede superar con confianza un modelo "nativo" con razonamiento más débil. Dicho esto, los propios autores reconocen que Yandex tiene una metodología de comparación interna diferente, y en sus propias pruebas Alice ganó a versiones anteriores de DeepSeek V3.

1 y Qwen en algunas tareas. Pero en el conjunto de 32 escenarios de gestión, V3.2 resultó más fuerte que Yandex en las ocho categorías.

Qué significa esto

Para equipos de habla rusa, el mercado de IA ya no se reduce a una elección entre líderes occidentales y productos locales. Si necesita una herramienta funcional sin VPN, ahora tiene más sentido mirar hacia DeepSeek y GLM-5: no alcanzan el top absoluto, pero ya cubren la mayoría de las tareas cotidianas de un gerente. Y la promesa de "entendemos mejor el ruso" ya no garantiza liderazgo por sí sola. Para los negocios, esta ya es una opción práctica, no teórica.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…