Habr AI→ original

Muro para LLM: por qué los escépticos volvieron a equivocarse

Cada seis meses, la industria de IA entra en un período de "gran desánimo". Primero nos dijeron que GPT-3 era el límite y no había hacia dónde ir. Luego nos…

Procesado por IA desde Habr AI; editado por Hamidun News
Muro para LLM: por qué los escépticos volvieron a equivocarse
Fuente: Habr AI. Collage: Hamidun News.
◐ Escuchar artículo

Cada seis meses, la industria de IA entra en un período de "gran desánimo". Primero nos dijeron que GPT-3 era el límite y no había hacia dónde ir. Luego nos aseguraron que el siguiente paso requiere trillones de tokens que simplemente no existen en internet. Ahora una nueva tendencia: los datos se acabaron, la arquitectura de transformers se agotó, es hora de terminar. Esto suena sólido e incluso lógico si miras el mundo a través de una cerradura. Pero si has estado siguiendo el juego durante más de un ciclo de hype, entiendes — no hemos chocado con una pared, simplemente hemos llegado al final de una línea recta y estamos entrando en una autopista de alta velocidad.

El problema con los escépticos es que piensan unidimensionalmente. Para ellos, el progreso significa meter más texto en un modelo y obtener más inteligencia. Sí, los datos textuales para el aprendizaje clásico supervisado se están realmente agotando. Todo internet ya ha sido "digerido" por las redes neuronales. Pero el aprendizaje a partir de datos es solo uno de seis ejes a lo largo de los cuales se mueve el progreso. Mientras alguien llora bibliotecas vacías, ingenieros en OpenAI, Google y Anthropic están girando vigorosamente las otras cinco palancas, que de alguna manera se olvidan en las discusiones públicas.

La primera y quizás más importante palanca hoy es el cálculo en tiempo de inferencia, o inference-time compute. Mira los modelos de la familia o1. No simplemente generan una respuesta, "piensan" antes de escribir la primera letra. Esto cambia el paradigma: ahora no necesariamente tienes que hacer un modelo diez veces más grande para hacerlo más inteligente. Puedes hacerle pensar más tiempo sobre la tarea. Es como en la vida: una persona inteligente no es quien ha leído más libros, sino quien sabe analizar información profundamente. Estamos pasando de la cantidad de lectura a la calidad de la comprensión.

El segundo eje es la eficiencia algorítmica. ¿Recuerdas cómo todos se quejaban del apetito voraz de los transformers? Ahora arquitecturas como Mamba y Mixture of Experts (MoE) entran en escena. Ofrecen el mismo poder con mucho menos costo de recursos. Estamos aprendiendo a construir motores más sofisticados, no solo a aumentar el tamaño del tanque de gasolina. Súmale a esto el tercer eje — multimodalidad. Los modelos dejan de ser simplemente "lectores de texto". Comienzan a ver, oír y entender el mundo físico. Cuando la IA aprende de video y audio, el concepto de "texto se acabó" pierde todo significado. El mundo es un flujo infinito de datos que apenas estamos comenzando a explorar.

El cuarto y quinto factores son el uso de herramientas y la mejora continua a través de self-play. Recuerda cómo AlphaGo derrotó al campeón mundial de Go. No aprendió solo de juegos de humanos, jugó contra sí misma millones de veces. Ahora este enfoque está llegando a los LLMs. Los modelos comienzan a generar datos sintéticos, verificar su lógica y aprender de sus propios errores. Si la IA puede crear tareas y resolverlas por sí sola, ya no necesita humanos como única fuente de conocimiento. Esto cierra el ciclo de aprendizaje y lo hace prácticamente infinito.

Estamos en un punto donde las métricas antiguas de progreso — el número de parámetros y el volumen del conjunto de datos — dejan de ser primarias. Ha llegado una era de flexibilidad arquitectónica y profundidad intelectual. Quienes hoy gritan sobre "tecnología agotada" simplemente no notaron que las reglas del juego han cambiado. No hemos alcanzado el techo, simplemente terminamos el fundamento y comenzamos a construir pisos. Y juzgando por el ritmo de implementación de agentes y herramientas, estos pisos crecerán mucho más rápido de lo que nadie esperaba.

La conclusión: Olvida la "escasez de datos". La verdadera batalla ahora es quién enseñará al modelo a pensar más tiempo y de manera más eficiente, no quién lo alimentará con más terabytes de Reddit.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…