IBM lanzó Granite 4.0 1B Speech — un modelo de voz multilingüe compacto para edge AI
IBM lanzó Granite 4.0 1B Speech, un modelo compacto para ASR multilingüe y traducción bidireccional de voz. Tiene la mitad de los parámetros de Granite…
Procesado por IA desde MarkTechPost; editado por Hamidun News
IBM ha lanzado Granite 4.0 1B Speech — un modelo compacto de habla-lenguaje para reconocimiento de voz multilingüe y traducción bidireccional. Lo importante de esta noticia no es solo un nuevo lanzamiento, sino la apuesta de IBM por escenarios de producción donde la memoria, latencia y costo de inferencia son tan críticos como la calidad en puntos de referencia.
Qué cambió
Granite 4.0 1B Speech reemplaza configuraciones más pesadas en la línea Granite Speech y se enfoca en eficiencia. Según IBM, el modelo tiene la mitad de los parámetros de granite-speech-3.
3-2b, mientras logra mayor precisión en ASR en inglés, soporte para reconocimiento de voz en japonés, sesgado de lista de palabras clave e inferencia más rápida a través del ajuste fino del codificador y decodificación especulativa. La idea es simple: no aumentar el tamaño a cualquier costo, sino eliminar peso innecesario sin perder capacidades básicas que los equipos necesitan en producción real. IBM enfatiza el enfoque de entrenamiento por separado.
El modelo está construido sobre granite-4.0-1b-base, que fue ajustado para tareas de voz mediante alineación de modalidad. La mezcla de entrenamiento incluyó corpus ASR y AST abiertos, así como conjuntos de datos sintéticos para idioma japonés, ASR sesgado por palabras clave y traducción de voz.
Para desarrolladores, esta es una señal importante: IBM no está construyendo una pila de voz cerrada solo para la nube, sino desarrollando un modelo abierto que puede adaptarse a sus propios pipelines y hardware.
Idiomas y tareas
Granite 4.0 1B Speech está diseñado para escenarios empresariales donde se necesitan tanto transcripción como traducción de voz bidireccional. El conjunto básico de idiomas de entrada soportados incluye inglés, francés, alemán, español, portugués y japonés. Para traducción, IBM posiciona el modelo como una herramienta para voz a texto y traducción de voz hacia el inglés y desde el inglés para estos idiomas, y especifica por separado escenarios inglés-italiano e inglés-mandarín. Esto hace que el lanzamiento sea útil no solo para call centers e interfaces de voz, sino también para pipelines de traducción internos.
- Reconocimiento de voz en inglés, francés, alemán, español, portugués y japonés
- Traducción de voz bidireccional para pares con inglés
- Escenarios separados inglés-a-italiano e inglés-a-mandarín
- Sesgado por lista de palabras clave para nombres, marcas y abreviaciones
- Funcionamiento en escenarios donde la baja latencia y la memoria limitada son críticas
Otra ventaja práctica es la licencia Apache 2.0. Para equipos empresariales, esto reduce la fricción en la etapa de piloto y evaluación legal: el modelo se puede desplegar localmente, incrustar en su propia pila y no estar vinculado al acceso solo por API en una etapa temprana. Frente a un mercado donde muchos sistemas de voz están disponibles solo como servicio en la nube con restricciones comerciales, este formato ofrece más libertad para personalización, despliegue sin conexión y control de datos.
Despliegue y métricas
Según la ficha del modelo, Granite 4.0 1B Speech ya ha alcanzado el primer lugar en la tabla de clasificación OpenASR con un WER promedio de 5,52 y RTFx de 280,02. En el desglose por conjunto de datos, IBM muestra, por ejemplo, 1,42 en LibriSpeech Clean, 2,85 en LibriSpeech Other y 3,10 en Tedlium.
Para tales lanzamientos, este es un argumento importante: el modelo se posiciona no solo como "pequeño y barato", sino como un sistema compacto que aún mantiene un nivel muy fuerte en pruebas públicas estándar. En términos de despliegue, IBM intentó eliminar barreras innecesarias. El modelo es compatible con **transformers 4.
52.1+, se ejecuta a través de vLLM y tiene una ruta separada para mlx-audio** en Apple Silicon. El pipeline de referencia utiliza audio mono a 16 kHz, la solicitud se forma mediante el prefijo `<|audio|>` y el sesgado de palabras clave se puede agregar directamente al prompt.
Arquitectónicamente, Granite Speech sigue siendo un sistema de dos pasadas: primero el modelo convierte audio a texto, luego si es necesario una llamada separada del modelo de lenguaje procesa la transcripción. Para producción, esto es conveniente porque el reconocimiento y la lógica posterior pueden escalarse y ajustarse de forma independiente.
Lo que esto significa
IBM está apostando por el segmento de IA de voz donde el modelo ganador no es el más grande, sino el que realmente puede ejecutarse en recursos limitados sin perder calidad. Si Granite 4.0 1B Speech se consolida en despliegues de producción, el mercado obtendrá otra sólida opción de código abierto para transcripción local, traducción de voz y servicios edge sin una pesada dependencia de la nube.
¿Quieres dejar de leer sobre IA y empezar a usarla?
AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.