DeepSeek V4 Pro vs Claude Sonnet 4.6 en 50 tareas reales: dónde ahorrar, dónde está el riesgo
DeepSeek V4 Pro resultó ser 3-4 veces más económico que Claude Sonnet 4.6, pero en una prueba de 50 tareas típicas para un desarrollador ruso, quedó corto en…
Procesado por IA desde Habr AI; editado por Hamidun News
Una comparación entre DeepSeek V4 Pro y Claude Sonnet 4.6 en 50 tareas típicas de un desarrollador ruso mostró una cosa simple: el precio bajo por token no garantiza la mejor opción para producción. En escenarios básicos, los modelos funcionan casi igualmente, pero en tareas con especificaciones rusas, DeepSeek comete errores notablemente más frecuentes.
Qué se probó
El autor del artículo comparó los modelos no en benchmarks académicos, sino en solicitudes prácticas que realmente ocurren en equipos locales: soporte al cliente, extracción de datos de documentos, cálculos según normas del Código Laboral y del Código Fiscal russos, así como transcripción de abreviaturas profesionales. Las pruebas se realizaron a través de interfaces web ordinarias: Claude Sonnet 4.6 — sin pensamiento adaptativo, DeepSeek V4 — en modo rápido sin pensamiento profundo.
En total, había 50 prompts divididos en cuatro bloques. En abril de 2026, la diferencia de precio se veía muy agresiva a favor de DeepSeek: $1,74 por millón de tokens de entrada y $3,48 de salida contra $3 y $15 para Sonnet 4.6.
Con carga real, esto ofrece aproximadamente un ahorro triple, por lo que la tentación de cambiar a un modelo más barato es bastante comprensible.
- Clasificación de 20 tickets de soporte en cinco categorías
- Extracción de campos de 15 documentos con errores de OCR
- 10 tareas de razonamiento con normas de ley rusa y cálculos
- 5 tareas en terminología local como EDS, UPD, OFD y KIZ
Donde existe paridad
En escenarios simples, no había casi ninguna diferencia. Ambos modelos clasificaron impecablemente tickets de soporte y se desempeñaron igualmente bien con preguntas típicas sobre entrega, devoluciones, pago e consultas generales. En razonamiento básico también había paridad: plazo de prescripción, devolución de anticipo y un caso de despido durante período de prueba — ambos sistemas analizaron correctamente, aunque con referencias diferentes a normas.
El panorama fue similar en la revisión de documentos. Ambos modelos no confundieron OGRNIP con INN, tomaron la cantidad de una línea de dígitos si la descripción contenía error, y extrajeron correctamente fechas de reportes de anticipo. Según la evaluación del autor, si el 80% de la carga de una empresa consiste precisamente en tales tareas, cambiar a DeepSeek puede reducir el presupuesto aproximadamente un 75% sin pérdida notable de calidad.
"Los benchmarks en inglés no nos ayudan a elegir un modelo para una tarea rusa."
Donde los errores son costosos
Los problemas comenzaron donde la inteligencia general no es suficiente, sino que se requiere conocimiento de contexto local y precisión en casos límite. En una prueba calculando el salario de un empleado con salario de 150.000 rublos, Sonnet dio los correctos 130.500 rublos en mano, mientras que DeepSeek dio 110.550. Esencialmente, el modelo retuvo el 26,3% en lugar del estándar 13%, probablemente confundiendo impuesto sobre la renta con contribuciones de seguro del empleador. Para propósitos de demostración, esto es simplemente un error, pero en un pipeline automatizado — potencialmente cientos de miles de rublos de error por mes.
Otro fallo se encontró en normalización OCR. Ambos modelos leyeron correctamente el monto, INN y fecha en una factura con caracteres rusos y latinos mezclados, pero solo Sonnet normalizó el número de documento a forma canónica. DeepSeek dejó las letras O y l donde deberían estar dígitos. Si tal número se compara posteriormente con una base de datos 1C o ERP por coincidencia exacta, el documento simplemente no se encontrará, aunque los otros campos se ven correctos.
El tipo más desagradable de error DeepSeek mostró en una tarea sobre deducción social para educación de un hijo de 25 años. El modelo comenzó la respuesta con "SÍ", y luego explicó por sí mismo por qué bajo Artículo 219 del Código Fiscal Ruso la deducción no está permitida después de los 24 años. Para una persona, la contradicción es inmediatamente obvia, pero para un sistema que solo analiza la primera palabra, esto ya es una clase incorrecta.
Un problema similar surgió en terminología: Sonnet reveló correctamente KIZ como marca de identificación de control, mientras que DeepSeek inventó una variante sobre "código de identificación de pieza". En total, Sonnet obtuvo 92% versus 88% en documentos, 100% versus 60% en tareas con especificación legal rusa, y 100% versus 80% en terminología local.
Qué significa esto
La conclusión práctica: DeepSeek V4 Pro es adecuado para soporte de primera línea, respuestas plantilla, clasificación básica y MVP, donde el precio es crítico y un error no lleva a acción financiera o legal. Pero si el modelo participa en cálculos de dinero, interpretación de normas del Código Fiscal y Laboral rusos, normalización de documentos, o proporciona respuestas que son directamente analizadas por sistemas, el premio por Claude Sonnet 4.6 parece un seguro contra consecuencias más costosas. Elija entre ellos no por benchmarks, sino por 30-50 de sus propias solicitudes reales.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.