Datos Sintéticos
Los datos sintéticos son datos generados artificialmente—producidos por algoritmos, simulaciones o modelos generativos en lugar de recopilar de eventos del mundo real—utilizados para entrenar, validar o probar sistemas de aprendizaje automático mientras se evitan restricciones de privacidad, escasez o etiquetado.
Los datos sintéticos son información generada por procesos computacionales—incluidas redes generativas adversariales (GANs), modelos de difusión, simuladores basados en física y programas basados en reglas—en lugar de directamente observada o grabada de fenómenos del mundo real. Se diseñan para asemejarse estadísticamente a datos genuinos mientras no llevan enlace directo a individuos reales, eventos o procesos propietarios.
Los métodos de generación varían ampliamente según el dominio. Para datos tabulares, herramientas como Gretel y Mostly AI entrenan modelos estadísticos en muestras reales y extraen de la distribución aprendida mientras se cumplen garantías de privacidad diferencial. Para imágenes y video, modelos de difusión y sistemas patentados de compañías como Synthesis AI generan escenas fotorrealistas con control preciso sobre iluminación, colocación de objetos y etiquetas ground-truth anotadas. Para texto, modelos de lenguaje grandes pueden ser impulsados para producir ejemplos de entrenamiento variados de acuerdo a un esquema especificado. La calidad se evalúa comparando fidelidad estadística—qué tan cercana está la distribución sintética a la original—contra el rendimiento en tareas posteriores.
Los datos sintéticos abordan varios cuellos de botella prácticos: escasez en dominios como imágenes médicas, regulaciones de privacidad que restringen compartir registros personales, desbalance de clase severo donde eventos raros tienen muy pocos ejemplos reales, y el alto costo de anotación manual. Desarrolladores de vehículos autónomos, por ejemplo, pueden simular millones de escenarios de casi accidentes raros en una fracción del tiempo y costo requerido para capturar metraje capturado por dashcams real equivalente.
Para 2025–2026, los datos sintéticos se habían movido de una herramienta experimental a un componente estándar de canalizaciones de entrenamiento a gran escala. Google, OpenAI y Anthropic han discutido públicamente el uso de datos sintéticos para aumentar conjuntos de datos de seguimiento de instrucciones y preferencias. Los marcos regulatorios en la UE y los EE.UU. comenzaron a distinguir datos sintéticos de datos personales bajo ciertas condiciones, facilitando una adopción más amplia. La concentración del mercado es más alta en automotriz, atención médica y servicios financieros, con plataformas de síntesis dedicadas generando ingresos anuales de múltiples miles de millones de dólares.