Habr AI→ original

Qwen 3.6 Plus supera a DeepSeek V4 Pro en evaluación de contenido ruso y es más rentable

En la evaluación de contenido ruso, el nuevo DeepSeek V4 Pro no alcanzó el nivel Tier S esperado: 89 puntos frente a 92 de Qwen 3.6 Plus. La situación…

Procesado por IA desde Habr AI; editado por Hamidun News
Qwen 3.6 Plus supera a DeepSeek V4 Pro en evaluación de contenido ruso y es más rentable
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Una reciente prueba comparativa de seis LLMs de abril en contenido en ruso brindó un resultado inesperado: el nuevo buque insignia DeepSeek V4 Pro no se convirtió en el líder. Qwen 3.6 Plus tuvo un mejor desempeño, habiendo sido lanzado antes y costando menos.

Quién salió adelante

Se esperaba que DeepSeek V4 Pro entregara resultados de nivel Tier S — más de 95 puntos de 100. Las expectativas eran lógicas: el modelo es grande, nuevo, con resultados sólidos en AIME y SWE-bench y con énfasis en arquitectura de reasoning. Pero en una prueba práctica con contenido en ruso, obtuvo 89 puntos.

Este es un resultado sólido, pero no del tipo que normalmente se espera de un lanzamiento que reclama estatus de buque insignia en el mercado. Aún más interesante es la comparación dentro de la propia línea DeepSeek. La versión Flash obtuvo 83 puntos, rezagándose del Pro por apenas 6 puntos.

En este contexto, la reprueba de Qwen 3.6 Plus, lanzado 22 días antes, obtuvo 92 puntos. Como resultado, el modelo más antiguo superó el lanzamiento más reciente de DeepSeek no solo en calidad de texto, sino también en utilidad general para tareas reales en idioma ruso.

Precio contra calidad

La principal sorpresa no radica solo en los puntos, sino en la economía. Si el Pro supera al Flash por solo algunos puntos mientras cuesta 13 veces más, la opción para producción ya no se ve obvia. Para equipos que generan grandes volúmenes de contenido, esta diferencia rápidamente se convierte en un rubro de gasto notable.

En tal escenario, lo que importa no es el registro absoluto en la prueba, sino cuánto resultado útil el modelo entrega por dólar gastado. En la metodología actualizada, el autor de la comparación enfatiza precisamente esto y propone evaluar modelos mediante score-per-dollar. Este enfoque cambia las conclusiones más drásticamente que una clasificación convencional por puntuaciones brutas.

Un modelo puede quedarse un poco corto en calidad pero ganar en uso real debido al precio, velocidad y comportamiento más predecible en respuestas largas. Para equipos editoriales y de productos, esto es mucho más útil que pagar ciegamente por la opción más cara.

  • DeepSeek V4 Pro — 89 puntos con expectativas Tier S
  • DeepSeek Flash — 83 puntos con economía notablemente más suave
  • Qwen 3.6 Plus — 92 puntos y liderazgo en la comparación
  • Diferencia entre Pro y Flash — 6 puntos con una diferencia de precio 13 veces mayor
  • Métrica clave para la selección — no solo score, sino score-per-dollar

Por qué el reasoning no lo salvó

Una de las principales hipótesis tras la prueba es que la optimización para reasoning no garantiza resultados narrativos sólidos. Métricas como AIME y SWE-bench demuestran efectivamente las capacidades de un modelo en matemáticas, código y razonamiento estructurado, pero son peores prediciendo cómo escribirá texto vivo, coherente y convincente en ruso. Para tarefas de contenido, importan el ritmo, la precisión de la redacción, el sentido de la estructura y el manejo de matices del lenguaje, no solo la capacidad de desglosar correctamente una tarea en pasos.

Ante este panorama, las actualizaciones de metodología no se ven como mera formalidad, sino como un intento de acercar más honestamente la prueba a la producción. Entre los cambios están ajustes de max_tokens, reprueba pagada y evaluación más rigurosa del valor práctico de las respuestas. En otras palabras, ya no estamos simplemente comparando modelos "inteligentes", sino modelos que deben resolver consistentemente una tarea editorial específica dentro de un presupuesto dado.

Fue precisamente bajo tales condiciones que quedó claro que la novedad de un lanzamiento ya no es una ventaja en sí misma.

Lo que esto significa

El mercado de LLM cada vez se parece menos a una carrera de "lo más nuevo es lo mejor". Para tareas de contenido en idioma ruso, el ganador no es el modelo más ruidoso, sino el que mejor mantiene la calidad del texto y se amortiza en producción. Para los equipos, esta es una señal de repruebar más frecuentemente los buques insignia frescos en sus propios escenarios, en lugar de seleccionarlos únicamente basándose en titulares de benchmark.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…