Muro para LLM: por qué los escépticos volvieron a equivocarse
Cada seis meses, la industria de IA entra en un período de "gran desánimo". Primero nos dijeron que GPT-3 era el límite y no había hacia dónde ir. Luego nos…
Procesado por IA desde Habr AI; editado por Hamidun News
Cada seis meses, la industria de IA entra en un período de "gran desánimo". Primero nos dijeron que GPT-3 era el límite y no había hacia dónde ir. Luego nos aseguraron que el siguiente paso requiere trillones de tokens que simplemente no existen en internet. Ahora una nueva tendencia: los datos se acabaron, la arquitectura de transformers se agotó, es hora de terminar. Esto suena sólido e incluso lógico si miras el mundo a través de una cerradura. Pero si has estado siguiendo el juego durante más de un ciclo de hype, entiendes — no hemos chocado con una pared, simplemente hemos llegado al final de una línea recta y estamos entrando en una autopista de alta velocidad.
El problema con los escépticos es que piensan unidimensionalmente. Para ellos, el progreso significa meter más texto en un modelo y obtener más inteligencia. Sí, los datos textuales para el aprendizaje clásico supervisado se están realmente agotando. Todo internet ya ha sido "digerido" por las redes neuronales. Pero el aprendizaje a partir de datos es solo uno de seis ejes a lo largo de los cuales se mueve el progreso. Mientras alguien llora bibliotecas vacías, ingenieros en OpenAI, Google y Anthropic están girando vigorosamente las otras cinco palancas, que de alguna manera se olvidan en las discusiones públicas.
La primera y quizás más importante palanca hoy es el cálculo en tiempo de inferencia, o inference-time compute. Mira los modelos de la familia o1. No simplemente generan una respuesta, "piensan" antes de escribir la primera letra. Esto cambia el paradigma: ahora no necesariamente tienes que hacer un modelo diez veces más grande para hacerlo más inteligente. Puedes hacerle pensar más tiempo sobre la tarea. Es como en la vida: una persona inteligente no es quien ha leído más libros, sino quien sabe analizar información profundamente. Estamos pasando de la cantidad de lectura a la calidad de la comprensión.
El segundo eje es la eficiencia algorítmica. ¿Recuerdas cómo todos se quejaban del apetito voraz de los transformers? Ahora arquitecturas como Mamba y Mixture of Experts (MoE) entran en escena. Ofrecen el mismo poder con mucho menos costo de recursos. Estamos aprendiendo a construir motores más sofisticados, no solo a aumentar el tamaño del tanque de gasolina. Súmale a esto el tercer eje — multimodalidad. Los modelos dejan de ser simplemente "lectores de texto". Comienzan a ver, oír y entender el mundo físico. Cuando la IA aprende de video y audio, el concepto de "texto se acabó" pierde todo significado. El mundo es un flujo infinito de datos que apenas estamos comenzando a explorar.
El cuarto y quinto factores son el uso de herramientas y la mejora continua a través de self-play. Recuerda cómo AlphaGo derrotó al campeón mundial de Go. No aprendió solo de juegos de humanos, jugó contra sí misma millones de veces. Ahora este enfoque está llegando a los LLMs. Los modelos comienzan a generar datos sintéticos, verificar su lógica y aprender de sus propios errores. Si la IA puede crear tareas y resolverlas por sí sola, ya no necesita humanos como única fuente de conocimiento. Esto cierra el ciclo de aprendizaje y lo hace prácticamente infinito.
Estamos en un punto donde las métricas antiguas de progreso — el número de parámetros y el volumen del conjunto de datos — dejan de ser primarias. Ha llegado una era de flexibilidad arquitectónica y profundidad intelectual. Quienes hoy gritan sobre "tecnología agotada" simplemente no notaron que las reglas del juego han cambiado. No hemos alcanzado el techo, simplemente terminamos el fundamento y comenzamos a construir pisos. Y juzgando por el ritmo de implementación de agentes y herramientas, estos pisos crecerán mucho más rápido de lo que nadie esperaba.
La conclusión: Olvida la "escasez de datos". La verdadera batalla ahora es quién enseñará al modelo a pensar más tiempo y de manera más eficiente, no quién lo alimentará con más terabytes de Reddit.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.