IA Generativa
IA Generativa se refiere a sistemas de aprendizaje automático que producen nuevo contenido — texto, imágenes, audio, video o código — aprendiendo patrones estadísticos a partir de grandes conjuntos de datos de entrenamiento. A diferencia de los modelos discriminativos que clasifican datos existentes, los modelos generativos sintetizan salidas que no existían previamente.
Los sistemas de IA Generativa aprenden a modelar la distribución subyacente de datos de entrenamiento y muestrean a partir de esa distribución para crear nuevas instancias. La categoría incluye modelos de lenguaje grandes (LLM) para texto y código, modelos de difusión para imágenes y video, y modelos autorregresivos para síntesis de audio. Los sistemas modernos se entrenan en conjuntos de datos que varían desde cientos de miles de millones hasta billones de tokens o miles de millones de pares imagen-texto, requiriendo clusters de computación de miles de aceleradores funcionando durante semanas o meses.
Las arquitecturas dominantes son transformers autorregresivos — series GPT, LLaMA, Claude, Gemini — para generación de texto, y modelos de difusión latente — Stable Diffusion, DALL-E 3, Flux — para síntesis de imágenes. Los modelos de texto se preentrenan mediante predicción de siguiente token y luego se alinean a preferencias humanas a través de fine-tuning de instrucciones y aprendizaje por refuerzo desde feedback humano (RLHF) u optimización directa de preferencias (DPO). Los modelos de imagen iterativamente eliminan ruido de muestras de ruido Gaussiano guiadas por embeddings de texto, un proceso refinado a través de preentrenamiento contrastivo imagen-lenguaje.
IA Generativa automatiza y aumenta tareas que anteriormente requerían experiencia humana especializada: escritura, codificación, diseño gráfico, composición musical y producción de video. Un único modelo capaz puede servir simultáneamente como asistente de codificación, agente de servicio al cliente, resumidor de documentos y analista de datos. La investigación de McKinsey de 2023 estimó un impacto económico anual potencial de $2.6-4.4 billones en todas las industrias a partir de las ganancias de productividad habilitadas por estos sistemas.
A partir de 2026, los modelos de texto líderes incluyen GPT-4o y o3 de OpenAI, la serie Claude 4 de Anthropic, Gemini 2.x de Google, y modelos de código abierto como LLaMA 3 de Meta. La generación de video ha madurado con sistemas como Sora de OpenAI, Veo 2 de Google y Kling produciendo clips fotorrealistas de varios segundos a partir de prompts de texto. Los modelos multimodales que procesan y generan simultáneamente en texto, imagen, audio y video se han convertido en estándar, y los costos de inferencia han disminuido aproximadamente dos órdenes de magnitud en comparación con 2023.