Doubletapp explicó por qué los datasets de baja calidad impiden que AI mejore NPS, CTR y conversión

Q: ¿Cuál es la fuente?

Publicado originalmente en Habr AI. Hamidun News procesa y adapta los materiales con IA.

Q: ¿Cuándo se publicó?

30 abr 2026. Tiempo de lectura: 3 min.

En Doubletapp señalaron que el fracaso de muchos proyectos de AI no está relacionado con el modelo, sino con datos de baja calidad. Un dataset de calidad…

Redacción de Hamidun News

Monitoreo de AI · Habr AI

30 abr 2026· 3 min

Procesado por IA desde Habr AI; editado por Hamidun News

Doubletapp explicó por qué los datasets de baja calidad impiden que AI mejore NPS, CTR y conversión — Fuente: Habr AI. Collage: Hamidun News.

◐ Escuchar artículo

Doubletapp lanzó una entrevista explicando por qué los proyectos de IA se rompen más a menudo no en la selección del modelo, sino en los datos. Ilnur Fayziev, jefe de la unidad Data LLM, explicó cómo la calidad del dataset se refleja directamente en el NPS de soporte, CTR del catálogo y la tasa de conversión de compra.

Dónde se pierden las métricas

La idea principal de la entrevista es simple: el negocio no compra un modelo como tal, sino una mejora en una cifra específica. En soporte, esta es la velocidad de resolución de incidencias y satisfacción del cliente; en retail online — clicabilidad de fichas de producto y proporción de pedidos; en búsqueda de base de conocimiento — precisión de respuesta. Si un dataset se recopila con ruido, anotación deficiente o sin conexión con escenarios reales, el modelo comienza a cometer errores donde cada fallo le cuesta dinero al negocio. Por lo tanto, la conversación sobre datos aquí no es académica, sino una conversación directa sobre ingresos, costos y calidad del servicio.

El material también presenta casos de uso menos obvios. Para una empresa industrial, la IA puede buscar respuestas en reglamentos internos y reducir la cantidad de errores en procesos de producción. Para tareas de visión por computadora — determinar la calidad del acero por parámetros del proceso y ayudar a mantener resultados estables. En todos los casos, existe la misma lógica: en la parte superior está la métrica de negocio, debajo — la calidad de operación del sistema ML, y bajo ella yace el dataset, que o fortalece el modelo o imperceptiblemente lo arrastra hacia abajo.

NPS y tiempo de respuesta en soporte
CTR y conversión en e-commerce
Precisión de búsqueda en base de conocimiento interna
Reducción de errores en procesos de producción
Calidad de reconocimiento en sistemas de visión por computadora

Cuándo un dataset es obligatorio

Según Fayziev, un dataset de calidad es necesario en dos situaciones típicas. La primera — cuando una empresa simplemente compara IA con trabajo manual y quiere entender si la solución puede desplegarse en producción. La segunda — cuando el sistema ya está funcionando, pero sus métricas dejan de satisfacer: las respuestas no son relevantes, las recomendaciones no llevan a compras, y la velocidad o precisión han alcanzado un límite. En ambos casos, sin calidad medible actual y métrica objetivo clara, el trabajo con datos se convierte en adivinanza.

"Los datasets son necesarios en dos etapas del desarrollo del producto."

Se hizo especial énfasis en la economía. Un dataset no es un desarrollo personalizado infinito, sino más bien un artefacto final que puede prepararse, verificarse y cargarse en un pipeline de entrenamiento o ajuste fino. Sí, las auditorías de modelo deben repetirse regularmente, pero la recopilación y anotación de datos generalmente es mejor subcontratarla a quienes se especializan en este proceso. Si todo se mantiene internamente, los ingenieros pasan semanas seleccionando ejemplos, configurando el entorno, control de calidad y gestión de anotadores. Para el negocio, esto a menudo es más caro de lo que parece al principio.

Por qué el crowdsourcing se debilita

La entrevista también es interesante porque captura un cambio en el mercado. El crowdsourcing masivo funcionaba bien en la era de tareas simples como "gato o perro". Ahora esos escenarios son manejados por los propios modelos con suficiente confianza, así que la anotación humana se está desplazando hacia dominios especializados.

Si se trata de un asistente de código para un idioma raro, validación industrial compleja o base de conocimiento temática, necesitas no solo un gran flujo de ejecutores, sino personas que realmente entiendan el contexto de la tarea y puedan detectar errores sutiles. Un enfoque combinado aún es posible: la parte simple del pipeline puede darse a anotación masiva, mientras que la parte compleja — a un equipo especialista. Pero entonces el negocio enfrenta una nueva carga: descomposición de tareas, búsqueda de diferentes contratistas, transferencia de contexto entre ellos y control de calidad adicional en las interfaces.

Es por esto precisamente que el mercado, según la evaluación de Doubletapp, sigue siendo relativamente estrecho y gira alrededor de grandes empresas de LLM y aquellos proyectos donde la mejora de métricas puede convertirse fácilmente en dinero.

Qué significa esto

Para el mercado, esta es una señal de que la ventaja competitiva en IA se está desplazando cada vez más de la elección del modelo más sonoro hacia la calidad de los datos aplicados. Los grandes actores aún necesitan datasets grandes, pero la próxima ola de demanda puede provenir de pequeños equipos con productos de IA de nicho. Primero probarán el MVP en datos listos, y cuando vean la economía, comenzarán a comprar datasets específicos para sus puntos débiles — y ahí es donde aparecerá el verdadero crecimiento de métricas.

Hamidun News

Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

Canal de Telegram RSS hamidun.com

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

🎓 Academy — 7 días gratis Consulta gratuita