Un año después, Qwen3 sigue siendo la mejor relación precio-calidad — prueba comparativa de modelos
Prueba comparativa de LLM: Qwen3-235B de julio de 2025 vuelve a liderar en relación precio-calidad. En un año, Gemini mejoró 40 puntos, DeepSeek V4 Flash fue…
Procesado por IA desde Habr AI; editado por Hamidun News
Reuní cuatro modelos LLM en un lote para verificar si la pequeña Gemma realmente superó a la grande en pruebas entre sesiones. Los resultados fueron mucho más interesantes de lo esperado.
Enfrentamiento directo: Gemma no se movió una de la otra
En un enfrentamiento directo justo, el resultado inesperado de la prueba entre sesiones se disipó: ambas Gemma resultaron estar parejas, sin diferencia. Pero eso fue solo el comienzo.
DeepSeek V4 Flash, que había calificado con 83 puntos, esta vez obtuvo 89, exactamente 6 puntos más. El modelo resultó estar subestimado, y este fue el descubrimiento principal de la prueba.
La sobrevaloración de un modelo puede llevar a la subestimación de toda la jerarquía. Por lo tanto, los enfrentamientos directos justos en un mismo contexto siguen siendo el estándar.
Qwen mantiene el trono durante un año
Mientras tanto, Qwen3-235B-A22B-2507 (lanzada el 21 de julio de 2025) volvió a ocupar el primer lugar en relación precio-calidad. Este fue el punto de control de julio, hace casi exactamente un año. Y sigue sin ceder ante la competencia.
Mucho ha sucedido en este año. Gemini saltó de 57 a 97 puntos, un crecimiento de 40 puntos. DeepSeek lo volví a probar tres veces, con nuevos resultados cada vez. Surgieron nuevos contendientes. ¿Pero Qwen? Simplemente mantiene el trono.
- Gemini: +40 puntos en un año
- DeepSeek V4 Flash: subestimado por 6 puntos
- Qwen3: sigue siendo la mejor en relación precio-calidad
- MiniMax: obtuvo publicidad, es sólido en las pruebas, pero no revolucionario
- Ocho nuevos modelos de junio: no desplazaron al líder
Nuevos criterios y promoción de MiniMax
Se agregó un nuevo criterio a la actualización del ranking: la velocidad de generación. Resulta que la velocidad y la calidad no siempre van de la mano. Un modelo puede ser rápido, pero más lento en el aprendizaje con datos actuales, o viceversa.
MiniMax merece una mención especial. Ciertamente todos lo elogian, y en términos de capacidades está cerca de Opus. Pero había mucha promoción activa alrededor suyo. En una prueba justa, muestra resultados dignos de atención, pero no lo suficientemente revolucionarios como para reescribir la jerarquía.
Qué significa esto
Si tienes que elegir entre calidad y precio, Qwen3-235B sigue siendo la mejor opción para la mayoría de tareas. Otros modelos son más especializados: Gemini para multimodalidad, DeepSeek para experimentación, MiniMax para quienes están dispuestos a pagar más.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.