IEEE Spectrum AI→ original

La nueva frontera de la AI: de los datos a la experiencia de interacción

La última década, el progreso en inteligencia artificial se midió por escala: modelos más grandes, conjuntos de datos más grandes y más potencia…

Procesado por IA desde IEEE Spectrum AI; editado por Hamidun News
La nueva frontera de la AI: de los datos a la experiencia de interacción
Fuente: IEEE Spectrum AI. Collage: Hamidun News.
◐ Escuchar artículo

La última década, el progreso en inteligencia artificial se midió por escala: modelos más grandes, conjuntos de datos más grandes y más potencia computacional. Este enfoque condujo a avances sorprendentes en modelos de lenguaje grande (LLMs). En solo cinco años, la IA dio un salto de modelos como GPT-2, que apenas podían imitar coherencia, a sistemas como GPT-4, que pueden razonar y participar en diálogos significativos. Y ahora prototipos iniciales de agentes de IA que pueden navegar por bases de código o explorar páginas web apuntan a una frontera completamente nueva.

Pero la escala sola solo puede llevar la IA hasta aquí. El siguiente salto no vendrá solo de escalar el tamaño de los modelos. Vendrá de combinar datos cada vez de mayor calidad con los mundos que construimos para entrenar modelos. Y la pregunta más importante se convierte en: ¿cómo se ven las aulas para la IA?

En los últimos meses, Silicon Valley ha hecho sus apuestas, y los laboratorios están invirtiendo miles de millones en la construcción de tales aulas, llamadas entornos de aprendizaje por refuerzo (RL). Estos entornos permiten a las máquinas experimentar, fallar y mejorar en espacios digitales realistas.

La historia de la IA moderna se ha desarrollado en eras, cada una definida por el tipo de datos que consumían los modelos. Primero vino la era del preentrenamiento en conjuntos de datos a escala de Internet. Estos datos públicos permitieron a las máquinas imitar el lenguaje humano reconociendo patrones estadísticos. Luego vinieron datos combinados con aprendizaje por refuerzo a partir de retroalimentación humana — un método que utiliza trabajadores de crowdsourcing para calificar respuestas de LLM — lo que hizo que la IA fuera más útil, receptiva y alineada con las preferencias humanas.

Hoy, los datos siguen siendo la base. Es la materia prima a partir de la cual se construye la inteligencia. Pero estamos entrando en una nueva fase donde los datos por sí solos ya no son suficientes. Para desbloquear la próxima frontera, debemos combinar datos de alta calidad con entornos que permitan interacción ilimitada, retroalimentación continua y aprendizaje a través de la acción. Los entornos de RL no reemplazan los datos; amplían lo que los datos pueden hacer al permitir que los modelos apliquen conocimiento, prueben hipótesis y refinen el comportamiento en condiciones realistas.

En un entorno de RL, un modelo aprende a través de un ciclo simple: observa el estado del mundo, realiza una acción y recibe una recompensa que indica si esa acción ayudó a alcanzar el objetivo. A lo largo de muchas iteraciones, el modelo gradualmente descubre estrategias que conducen a mejores resultados. El cambio crucial es que el aprendizaje se vuelve interactivo — los modelos no solo predicen el siguiente token, sino que mejoran a través de prueba, error y retroalimentación.

Por ejemplo, los modelos de lenguaje ya pueden generar código en una configuración simple de chat. Colóquelos en un entorno de codificación activo donde puedan obtener contexto, ejecutar su código, depurar errores y refinar su solución, y algo cambia. Pasan de aconsejar a la resolución de problemas autónoma.

En un mundo impulsado por software, la capacidad de la IA para generar y probar código de nivel de producción en repositorios extensos será un cambio serio en capacidades. Este salto no ocurrirá solo escalando conjuntos de datos; ocurrirá debido a entornos inmersivos donde los agentes pueden experimentar, tropezar y aprender a través de la iteración — muy como lo hacen los programadores humanos. El mundo real del desarrollo es desordenado: los programadores tienen que lidiar con errores mal definidos, bases de código enredadas y requisitos vagos.

Entrenar a la IA para manejar este desorden es la única forma en que alguna vez pasaría de producir intentos propensos a errores a crear soluciones consistentes y confiables.

La navegación web también es desordenada. Las ventanas emergentes, los muros de inicio de sesión, los enlaces rotos y la información desactualizada están tejidos en los flujos de trabajo de navegación cotidianos. Los humanos manejan estos fallos casi instintivamente, pero la IA solo puede desarrollar esta capacidad entrenando en entornos que imiten la impredecibilidad de Internet. Los agentes necesitan aprender a recuperarse de errores, reconocer y superar obstáculos de interfaz de usuario, y realizar flujos de trabajo de múltiples pasos en aplicaciones ampliamente utilizadas.

Cada gran salto en el desarrollo de IA se ha basado en infraestructura invisible, como anotadores etiquetando conjuntos de datos, investigadores entrenando modelos de recompensa e ingenieros construyendo andamios para que los LLM usen herramientas y acciones. Encontrar grandes volúmenes de conjuntos de datos de alta calidad una vez fue un cuello de botella en la IA, y resolverlo provocó la onda anterior de progreso. Hoy, el cuello de botella no son los datos — es crear entornos de RL que sean ricos, realistas y verdaderamente útiles.

El siguiente estadio del progreso de la IA no será una cuestión de suerte de escala. Será el resultado de combinar una base sólida de datos con entornos interactivos que enseñen a las máquinas a actuar, adaptarse y razonar en escenarios complejos del mundo real. Las sandboxes de codificación, los campos de juego del SO y navegador, y la simulación segura convertirán la predicción en competencia.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…