Together AI Blog→ original

Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros

Together AI amplió su plataforma de fine-tuning. Ahora soporta modelos de 100B+: DeepSeek-R1, Qwen3-235B, Llama 4. Se agregó soporte para contextos extendidos e

Procesado por IA desde Together AI Blog; editado por Hamidun News
Together AI amplió su plataforma: entrenamiento de modelos con 100B+ parámetros
Fuente: Together AI Blog. Collage: Hamidun News.
◐ Escuchar artículo

La plataforma de fine-tuning de Together AI recibió una actualización significativa. Ahora los desarrolladores pueden entrenar los modelos abiertos más grandes — con cientos de miles de millones de parámetros.

Modelos gigantes en entrenamiento

En 2025 se lanzaron muchos modelos con 100+ mil millones de parámetros. DeepSeek-R1, Qwen3-235B y Llama 4 Maverick muestran resultados cercanos a los mejores modelos propietarios en algunas tareas. El fine-tuning permite ajustar estos gigantes para tareas específicas de la empresa — pero anteriormente era complejo, costoso y requería experiencia profunda en ingeniería de ML. Together AI optimizó la arquitectura de su plataforma para que el entrenamiento de modelos grandes sea simple y asequible en precio.

La compañía agregó soporte para las versiones más recientes de los modelos más grandes:

  • DeepSeek: V3, R1 y sus versiones base
  • Qwen: Qwen3-235B y Qwen3-Coder-480B con contexto de hasta 32K tokens
  • Meta Llama: Llama 4 Scout y Llama 4 Maverick
  • OpenAI: gpt-oss-120b como piloto

Soporte estándar: contexto de 16K tokens para SFT (Supervised Fine-Tuning) y 8K para DPO (Direct Preference Optimization). Algunos modelos reciben contextos más grandes. Después de completar el entrenamiento, el desarrollador puede implementar un Dedicated Endpoint para inferencia o descargar checkpoints intermedios para análisis.

Contextos extendidos para entrenamiento

Documentos largos, bases de código grandes, cadenas de razonamiento de agentes IA — todo esto requiere un modelo que entienda contextos extendidos. El problema: si los ejemplos de entrenamiento son más cortos que las tareas reales, el modelo puede confundirse en producción. Together AI agregó soporte para contextos grandes directamente en el proceso de entrenamiento. Esto elimina la brecha entre entrenamiento y aplicación. Por ejemplo, Qwen3-235B ahora puede entrenarse con contexto de hasta 32K tokens para tareas SFT. Esto es especialmente útil para entrenar modelos en edición de archivos grandes, escritura de documentación y análisis de conversaciones largas.

Integración y nuevos métodos de entrenamiento

La plataforma mejoró la integración con Hugging Face Hub — el repositorio más grande de modelos abiertos y conjuntos de datos. Ahora los desarrolladores pueden descargar modelos del Hub con un clic, iniciar el entrenamiento y cargar el resultado. Esto reduce el tiempo desde la idea hasta un modelo entrenado listo. También se agregaron nuevas opciones DPO — métodos de entrenamiento que hacen que los modelos sean más receptivos a las preferencias humanas. DPO requiere menos datos que los enfoques antiguos y a menudo da mejores resultados en tareas del mundo real.

Qué significa esto

El entrenamiento de modelos grandes pasa de ser una tarea exclusiva y costosa a una herramienta masiva. Startups, laboratorios de investigación y empresas de tamaño medio ahora pueden adaptar DeepSeek, Qwen o Llama a sus tareas sin requerir presupuestos de millones de dólares. Esto acelera la adopción de IA y reduce la dependencia de modelos cerrados.

*Meta ha sido reconocida como una organización extremista y está prohibida en Rusia.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…