Habr AI→ original

Un año después, Qwen3 sigue siendo la mejor relación precio-calidad — prueba comparativa de modelos

Prueba comparativa de LLM: Qwen3-235B de julio de 2025 vuelve a liderar en relación precio-calidad. En un año, Gemini mejoró 40 puntos, DeepSeek V4 Flash fue…

Procesado por IA desde Habr AI; editado por Hamidun News
Un año después, Qwen3 sigue siendo la mejor relación precio-calidad — prueba comparativa de modelos
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Reuní cuatro modelos LLM en un lote para verificar si la pequeña Gemma realmente superó a la grande en pruebas entre sesiones. Los resultados fueron mucho más interesantes de lo esperado.

Enfrentamiento directo: Gemma no se movió una de la otra

En un enfrentamiento directo justo, el resultado inesperado de la prueba entre sesiones se disipó: ambas Gemma resultaron estar parejas, sin diferencia. Pero eso fue solo el comienzo.

DeepSeek V4 Flash, que había calificado con 83 puntos, esta vez obtuvo 89, exactamente 6 puntos más. El modelo resultó estar subestimado, y este fue el descubrimiento principal de la prueba.

La sobrevaloración de un modelo puede llevar a la subestimación de toda la jerarquía. Por lo tanto, los enfrentamientos directos justos en un mismo contexto siguen siendo el estándar.

Qwen mantiene el trono durante un año

Mientras tanto, Qwen3-235B-A22B-2507 (lanzada el 21 de julio de 2025) volvió a ocupar el primer lugar en relación precio-calidad. Este fue el punto de control de julio, hace casi exactamente un año. Y sigue sin ceder ante la competencia.

Mucho ha sucedido en este año. Gemini saltó de 57 a 97 puntos, un crecimiento de 40 puntos. DeepSeek lo volví a probar tres veces, con nuevos resultados cada vez. Surgieron nuevos contendientes. ¿Pero Qwen? Simplemente mantiene el trono.

  • Gemini: +40 puntos en un año
  • DeepSeek V4 Flash: subestimado por 6 puntos
  • Qwen3: sigue siendo la mejor en relación precio-calidad
  • MiniMax: obtuvo publicidad, es sólido en las pruebas, pero no revolucionario
  • Ocho nuevos modelos de junio: no desplazaron al líder

Nuevos criterios y promoción de MiniMax

Se agregó un nuevo criterio a la actualización del ranking: la velocidad de generación. Resulta que la velocidad y la calidad no siempre van de la mano. Un modelo puede ser rápido, pero más lento en el aprendizaje con datos actuales, o viceversa.

MiniMax merece una mención especial. Ciertamente todos lo elogian, y en términos de capacidades está cerca de Opus. Pero había mucha promoción activa alrededor suyo. En una prueba justa, muestra resultados dignos de atención, pero no lo suficientemente revolucionarios como para reescribir la jerarquía.

Qué significa esto

Si tienes que elegir entre calidad y precio, Qwen3-235B sigue siendo la mejor opción para la mayoría de tareas. Otros modelos son más especializados: Gemini para multimodalidad, DeepSeek para experimentación, MiniMax para quienes están dispuestos a pagar más.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…