TechCrunch→ original

Cohere lanzó un modelo open-source para transcripción — 2 mil millones de parámetros y 14 idiomas

Cohere lanzó un modelo de voz de código abierto diseñado específicamente para transcripción. Con solo 2 mil millones de parámetros, está pensado para…

Procesado por IA desde TechCrunch; editado por Hamidun News
Cohere lanzó un modelo open-source para transcripción — 2 mil millones de parámetros y 14 idiomas
Fuente: TechCrunch. Collage: Hamidun News.
◐ Escuchar artículo

Cohere ha lanzado un modelo de código abierto para transcripción de voz. A diferencia de la mayoría de sus competidores, el modelo pesa solo 2 mil millones de parámetros — esto fue deliberado, para permitir que se ejecute en una GPU de consumidor ordinaria sin recurrir a costosos clusters de servidores o APIs en la nube. La empresa posiciona la nueva herramienta como un instrumento para desarrolladores que desean desplegar transcripción por su cuenta.

Cohere es una empresa canadiense de IA fundada en 2019 por antiguos miembros de Google Brain. Hasta ahora, era conocida principalmente como proveedora de modelos de lenguaje empresariales: su modelo Command insignia compite con GPT-4 y Claude en el segmento empresarial, y su sistema de embeddings Embed se utiliza en miles de aplicaciones de producción para búsqueda semántica. Las herramientas de voz son una nueva dirección para la empresa, e inmediatamente con enfoque en especialización: en lugar de una solución multimodal universal, lanzaron una herramienta afinada para una única tarea.

El mercado de reconocimiento automático de voz está experimentando una transformación. Históricamente, fue controlado por gigantes tecnológicos: Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech. Todos operan bajo un modelo en la nube — el audio se envía a los servidores del proveedor, se procesa allí y retorna el texto. Esto crea dos problemas: gastos crecientes con volúmenes grandes y preocupaciones de privacidad, críticas para ciertos sectores. Los grandes proveedores ganan dinero a escala, pero para startups y empresas medianas, el costo de la transcripción en la nube rápidamente se convierte en un gasto significativo.

Un punto de inflexión llegó en 2022, cuando OpenAI lanzó Whisper — un modelo de transcripción de código abierto que puede ejecutarse localmente. Whisper cambió el mercado: los desarrolladores se desplazaron masivamente a transcripción autohospedada, y aparecieron variantes rápidas como faster-whisper basado en CTranslate2 y versiones destiladas ligeras. Sin embargo, Whisper tiene limitaciones conocidas. Las versiones grandes requieren una GPU con 8–10 GB de VRAM, y el modelo en sí no ha recibido actualizaciones significativas desde el lanzamiento de Large v3 en 2023. El mercado esperaba una alternativa digna. Es aquí donde surge espacio para el modelo de Cohere.

2 mil millones de parámetros — esto no es un compromiso, sino una apuesta deliberada por la accesibilidad. Para comparación: Whisper Large v3, considerado el estándar de calidad, tiene 1,5 mil millones de parámetros y requiere un mínimo de 8 GB de VRAM en precisión media. El modelo de Cohere es ligeramente más grande en cantidad de parámetros, pero, juzgando por la compatibilidad declarada con GPUs de consumidor, está mejor optimizado para ejecutarse sin un centro de datos. La compatibilidad con 14 idiomas cubre la mayoría de escenarios de producción para empresas globales.

El estado de código abierto es también cuestión de privacidad. Las empresas en los sectores financiero, médico, legal y gubernamental no pueden simplemente enviar conversaciones y grabaciones sensibles a los servidores de proveedores terceros. Los requisitos regulatorios de HIPAA, GDPR, la ley 152-ФЗ de Rusia y leyes similares exigen control sobre el procesamiento de datos. La transcripción autohospedada elimina esta barrera completamente: el audio se procesa localmente, nada sale hacia afuera.

Hasta ahora, la única opción madura para tales escenarios seguía siendo Whisper con sus limitaciones en producción. Publicar una herramienta abierta es también un movimiento estratégico de Cohere. Un modelo gratuito atrae a desarrolladores al ecosistema de la empresa, genera dependencia futura de productos en la nube corporativos al escalar el negocio y construye la reputación de un socio en quien confiar.

Esta es la misma lógica que Meta usa con Llama y Mistral con sus modelos abiertos: primero construir confianza a través de la apertura, luego monetizar a través de enterprise. Los benchmarks independientes aparecerán en las próximas semanas. Por ahora, no está claro cómo se comporta el modelo bajo ruido intenso, acentos difíciles y terminología especializada.

Si la precisión resulta comparable a Whisper Large v3, esto cambiará significativamente el balance de poder en el segmento de transcripción de código abierto. Los desarrolladores que construyen sistemas de transcripción de reuniones, centros de llamadas, herramientas de documentación médica o notas de voz, deberían agregar el modelo de Cohere a su lista de candidatos para pruebas.

ZK
Hamidun News
Noticias de AI sin ruido. Selección editorial diaria de más de 400 fuentes. Producto de Zhemal Khamidun, Head of AI en Alpina Digital.

¿Quieres dejar de leer sobre IA y empezar a usarla?

AI News es un feed curado de noticias de IA. Hamidun Academy te enseña a usar la IA en tu trabajo.

¿Qué te parece?
Cargando comentarios…