Entrenamiento

Datos de Entrenamiento

Los datos de entrenamiento son el conjunto de datos etiquetados o sin etiquetar introducidos en un modelo de aprendizaje automático durante el proceso de optimización, permitiéndole ajustar parámetros internos minimizando el error de predicción; su calidad, escala y diversidad son determinantes primarios de la capacidad del modelo.

Los datos de entrenamiento son la colección de ejemplos—etiquetados o sin etiquetar—usados para optimizar los parámetros de un modelo de aprendizaje automático a través de exposición repetida y corrección de error basada en gradientes. Durante el entrenamiento, el modelo procesa estos ejemplos, genera predicciones, calcula una pérdida midiendo el error de predicción y ajusta pesos internos vía retropropagación para que las predicciones mejoren sobre pasadas sucesivas a través de los datos.

La composición y preparación de los datos de entrenamiento profundamente moldean lo que un modelo aprende. Para tareas supervisadas como clasificación de imágenes, cada ejemplo empareja una entrada con una etiqueta objetivo. Para modelos de lenguaje, los datos de entrenamiento consisten en vastos corpus de texto procesados sin etiquetas por ejemplo; el modelo aprende prediciendo el siguiente token dado el contexto previo, un objetivo auto-supervisado que escala a datos a escala de internet. Los pasos de curación—deduplicación, remoción de contenido de baja calidad o dañino, y tokenización—substancialmente afectan comportamiento resultante. Los conjuntos de datos de referencia incluyen ImageNet (aproximadamente 1.4 millones de imágenes etiquetadas, fundamental para visión por computadora desde 2012), Common Crawl (petabytes de texto web usado en casi cada modelo de lenguaje importante) y The Pile (un corpus de texto curado de 800 GB ensamblado por EleutherAI en 2021).

La cantidad y calidad de los datos de entrenamiento son determinantes primarios de la capacidad del modelo. Los errores, sesgos y brechas se propagan directamente en el comportamiento del modelo: un modelo de lenguaje entrenado predominantemente en texto inglés de la web tiene un desempeño inferior en idiomas con pocos recursos, y un sistema de reconocimiento facial entrenado en imágenes demográficamente sesgadas exhibe tasas de error desiguales entre grupos. La frase "los datos son el nuevo petróleo" refleja cómo la ventaja competitiva en IA se ha desplazado hacia adquisición de datos, curación y licenciamiento.

El entrenamiento de modelos de lenguaje fronterizos a partir de 2025–2026 involucra conjuntos de datos medidos en billones de tokens. Los modelos Llama de Meta, la serie Gemini de Google y los modelos Claude de Anthropic se entrenan en corpus de múltiples billones de tokens mezclando datos web, libros, código, artículos científicos y material sintético curado. La preocupación sobre el agotamiento de texto escrito de alta calidad por humanos en internet pública está impulsando inversión en generación de datos sintéticos y canalizaciones de filtrado de calidad más agresivas para sustentar el escalado.

Ejemplo

El Llama 3 de Meta fue entrenado en aproximadamente 15 billones de tokens extraídos de texto web filtrado, repositorios de código y contenido multilingüe, con múltiples pasadas de deduplicación y etapas de filtrado de calidad aplicadas antes de que comenzara la ejecución de pre-entrenamiento.

Términos relacionados

Últimas noticias sobre el tema

← Glosario