MarkTechPost→ original

Meta presentó Autodata — un sistema de agentes para crear datos de entrenamiento de alta calidad

Meta anunció Autodata — un sistema en el que los LLM actúan como científicos de datos autónomos y, de forma iterativa, crean, validan y perfeccionan ejemplos…

Procesado por IA desde MarkTechPost; editado por Hamidun News
Meta presentó Autodata — un sistema de agentes para crear datos de entrenamiento de alta calidad
Fuente: MarkTechPost. Collage: Hamidun News.
◐ Escuchar artículo

Meta el 1 de mayo presentó Autodata — un framework en el que agentes LLM recopilan, verifican y refinan conjuntos de datos de entrenamiento por sí solos. La idea es transformar un modelo de un simple generador de datos sintéticos en un data scientist autónomo que mejora iterativamente la calidad de los ejemplos.

Por qué se necesita Autodata

Los datos sintéticos llevan mucho tiempo siendo una de las principales formas de acelerar el entrenamiento de modelos: son más baratos que la anotación manual, ayudan a cubrir escenarios raros y permiten generar tareas más complejas que las que se encuentran fácilmente en corpus abiertos. Pero la mayoría de los enfoques populares — desde Self-Instruct hasta variantes grounded- y CoT — tienen una limitación común: crean datos en una única pasada, y la calidad se controla después de la generación mediante filtrado o refinamiento manual.

Autodata cambia la lógica del proceso en sí. En lugar de generar ejemplos una vez y esperar encontrar buenos entre ellos, Meta propone un bucle cerrado similar a cómo trabaja un data scientist vivo. El agente se basa en documentos fuente, crea tareas, analiza dónde son demasiado fáciles, demasiado ruidosas o insuficientemente útiles, luego reescribe su propia fórmula de generación e intenta de nuevo. Esencialmente, el compute de inferencia adicional se destina no solo a las respuestas del modelo, sino también a mejorar los datos en los que luego aprende.

Cómo funciona el ciclo

La primera implementación práctica del framework se llama Agentic Self-Instruct. En ella, un LLM central actúa como un orquestrador y gestiona varios agentes especializados, cada uno responsable de una etapa separada de verificación de calidad. Este pipeline es necesario para que el conjunto de datos contenga no solo ejemplos correctos, sino precisamente aquellos donde un modelo fuerte muestra consistentemente mejores resultados que uno débil.

El agente utiliza materiales fuente como artículos científicos, código u otros documentos del dominio como base.

  • Challenger crea una nueva pregunta, contexto, respuesta de referencia y rúbrica de evaluación basada en el documento fuente.
  • Weak solver intenta resolver la tarea en modo limitado y debe fallar notablemente con más frecuencia.
  • Strong solver resuelve la misma tarea con una configuración más fuerte y debe superar el umbral de calidad.
  • Verifier/Judge verifica el ejemplo en sí y luego evalúa las respuestas de ambos modelos según criterios predefinidos.

Si la pregunta resulta demasiado fácil, el modelo débil obtiene demasiados puntos y el ejemplo se descarta. Si es demasiado difícil, el modelo fuerte también falla y el agente debe encontrar un ángulo de ataque diferente. Para la aceptación de ejemplos, Meta utiliza umbrales específicos: el resultado promedio del weak solver debe ser como máximo 65%, el del strong solver — al menos 60% y como máximo 95%, y la brecha entre ellos — al menos 20 puntos porcentuales.

Un documento normalmente requiere varias rondas de tal refinamiento.

"La creación agente de datos permite convertir compute de inferencia

adicional en entrenamiento de modelo de mayor calidad".

Lo que mostraron las pruebas

Meta probó Agentic Self-Instruct en tareas de investigación de ciencias de la computación. El sistema procesó más de 10 mil artículos del corpus S2ORC desde 2022 en adelante y finalmente recopiló 2117 pares pregunta-respuesta que pasaron todos los filtros de calidad.

El resultado clave — no solo un aumento en la cantidad de datos, sino un aumento en su poder discriminativo. En Self-Instruct CoT regular, los modelos débil y fuerte mostraban resultados casi idénticos: 71,4% vs. 73,3%, una brecha de solo 1,9 puntos porcentuales. En modo agente, el weak solver cayó a 43,7%, y el strong solver subió a 77,8%, ampliando la brecha a 34 puntos porcentuales.

Meta luego optimizó no las preguntas en sí, sino el "comportamiento" del agente data scientist. En un bucle externo, un optimizador evolutivo ejecutó nuevas versiones del repositorio de prompts y la lógica de evaluación, manteniendo solo aquellas que mejoraron los resultados de validación. En total, se ejecutaron 233 iteraciones, con 126 aceptadas, y la proporción de ejecuciones exitosas aumentó del 12,8% al 42,4%.

Entre las mejoras descubiertas automáticamente estaban la verificación más rigurosa de la relevancia de la pregunta para un artículo específico, la protección contra fugas de solución en el contexto, el rechazo de pesos negativos en las rúbricas y la traducción de criterios a formato JSON estricto.

Y esto ya cambia la economía del post-entrenamiento.

Qué significa esto

Autodata muestra que la siguiente capa de competencia en IA puede desplazarse de "quién entrenó el modelo más grande" a "quién construyó el mejor pipeline de datos". Para equipos aplicados, esto es especialmente importante: en lugar de anotación manual sin fin, puede invertir compute en un agente que por sí solo selecciona ejemplos difíciles, precisos y verdaderamente útiles para el fine-tuning y la evaluación de modelos.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…