Un pionero de la generación de imágenes apunta a una revolución en el AI textual
Stefano Ermon, uno de los creadores de la tecnología de modelos de difusión que sustenta generadores de imágenes como Stable Diffusion y DALL-E, presentó un…
Procesado por IA desde Bloomberg Tech; editado por Hamidun News
Cuando un científico cuyas ideas han moldeado toda una industria de medios generativos decide pivotarse hacia la IA de texto, el mercado debe prestar atención. Stefano Ermon, profesor en la Universidad de Stanford y uno de los principales investigadores en modelos de difusión, ha presentado una tecnología a través de su startup Inception que promete acelerar significativamente los sistemas de IA basados en texto—desde chatbots hasta asistentes corporativos.
Para comprender el alcance de este movimiento, necesitamos recordar quién es Ermon y por qué su nombre tiene tanto peso. Sus investigaciones en modelos generativos basados en score se convirtieron en uno de los fundamentos sobre los que se construyeron Stable Diffusion, DALL-E y decenas de otros servicios de creación de imágenes y vídeo. Los modelos de difusión—la tecnología que permite convertir descripciones de texto en imágenes fotorrealistas—deben gran parte de su existencia al trabajo de Ermon y sus colegas. Esta no es meramente una contribución académica: estamos hablando de tecnología que genera miles de millones de dólares en ingresos para empresas en todo el mundo.
Ahora Ermon se está enfocando en territorio firmemente controlado por OpenAI, Google, Anthropic y Meta—procesamiento del lenguaje natural. Su startup Inception, de la que se sabía poco hasta hace poco, ha presentado tecnología capaz de acelerar la generación de texto en modelos de lenguaje. Aunque los detalles aún no se han revelado completamente, según Bloomberg, se trata de un enfoque fundamentalmente nuevo de la arquitectura de inferencia—la parte del modelo responsable de entregar respuestas a los usuarios en tiempo real.
La velocidad de inferencia es uno de los desafíos centrales en la industria de los grandes modelos de lenguaje. Cada vez que haces una pregunta a ChatGPT o Claude, el modelo genera una respuesta token por token, un proceso que requiere enormes recursos computacionales. Las empresas gastan miles de millones de dólares en clusters de GPU para garantir tiempos de respuesta aceptables para cientos de millones de usuarios.
Cualquier tecnología capaz de reducir el tiempo de generación incluso en decenas de por ciento tiene un valor económico colosal. Es por eso que ahora docenas de startups y laboratorios de investigación se están enfocando en la optimización de la inferencia—desde Groq con sus chips especializados hasta diversas soluciones de software para cuantización y decodificación especulativa.
Que Ermon aporte experiencia del mundo de los modelos de difusión a esta carrera podría resultar ser una ventaja inesperada. Los modelos de difusión funcionan fundamentalmente de manera diferente a los transformers autorregresivos: en lugar de generación secuencial de tokens, refinan iterativamente los resultados a partir del ruido. Los investigadores llevan años experimentando con la transferencia de principios de difusión a la generación de texto, y algunos resultados se ven prometedores. Si Inception ha encontrado una manera de aplicar estas ideas para la aceleración práctica de modelos de texto, esto podría representar un verdadero avance—no una mejora evolutiva, sino un cambio de paradigma.
Sin embargo, el escepticismo también es apropiado. El mercado de startups de IA está inundado de reivindicaciones ambiciosas, y no todas ellas resisten la prueba de escala. Una cosa es demostrar resultados impresionantes en condiciones de laboratorio; algo completamente diferente es desplegar la tecnología para millones de usuarios manteniendo la calidad de las respuestas. Los grandes jugadores como OpenAI y Google poseen no solo la infraestructura más poderosa, sino también enormes equipos de ingenieros que han perfeccionado sus sistemas durante años. Competir con ellos en su propio terreno es una tarea de un orden completamente diferente al de publicar un artículo de investigación.
Sin embargo, la reputación y el historial de Ermon hacen de Inception una de las startups más interesantes en el panorama actual. El mercado de infraestructura para inferencia de IA se valúa en decenas de miles de millones de dólares y está creciendo rápidamente. Si la tecnología de Inception realmente funciona, la empresa tiene varios caminos estratégicos: licenciar a grandes proveedores, crear su propio servicio de API, o, igualmente probable, ser adquirida por uno de los gigantes tecnológicos.
La historia de Inception también refleja una tendencia más amplia: los límites entre diferentes áreas de la IA generativa se están difuminando. Las ideas nacidas en el mundo de las imágenes migran al texto, y viceversa. La multimodalidad deja de ser simplemente un término de marketing y se convierte en realidad de ingeniería. Si un científico que transformó la generación de imágenes puede afectar igualmente de manera radical al procesamiento de texto, será la mejor prueba de que la industria de la IA aún está lejos de la madurez—y los avances más interesantes pueden estar por venir.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.