Cohere lançou um modelo open-source para transcrição — 2 bilhões de parâmetros e 14 idiomas
Cohere lançou um modelo de voz de código aberto voltado especificamente para transcrição. Com apenas 2 bilhões de parâmetros, ele foi projetado para rodar em…
Processado por IA de TechCrunch; editado por Hamidun News
A Cohere lançou um modelo de código aberto para transcrição de fala. Ao contrário da maioria dos concorrentes, o modelo pesa apenas 2 bilhões de parâmetros — isso foi deliberado, para permitir que ele seja executado em uma GPU comum do consumidor sem recorrer a clusters de servidores caros ou APIs em nuvem. A empresa posiciona a nova ferramenta como um instrumento para desenvolvedores que desejam implantar transcrição por conta própria.
A Cohere é uma empresa canadense de IA fundada em 2019 por ex-alunos do Google Brain. Até agora, era conhecida principalmente como fornecedora de modelos de linguagem corporativos: seu modelo Command de ponta compete com GPT-4 e Claude no segmento empresarial, e seu sistema de embeddings Embed é usado em milhares de aplicações de produção para busca semântica. Ferramentas de voz são uma nova direção para a empresa, e imediatamente com foco em especialização: em vez de uma solução multimodal universal, eles lançaram uma ferramenta afinada para uma única tarefa.
O mercado de reconhecimento automático de fala está passando por uma transformação. Historicamente, era controlado por gigantes tecnológicos: Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech. Todos funcionam em um modelo em nuvem — o áudio vai para os servidores do provedor, é processado lá e o texto retorna. Isso cria dois problemas: despesas crescentes com grandes volumes e preocupações de privacidade, críticas para certos setores. Os grandes provedores ganham dinheiro com escala, mas para startups e empresas de médio porte, o custo da transcrição em nuvem rapidamente se torna um item significativo de despesa.
Um ponto de virada chegou em 2022, quando a OpenAI lançou Whisper — um modelo de transcrição de código aberto que pode ser executado localmente. O Whisper mudou o mercado: desenvolvedores migraram em massa para transcrição auto-hospedada, e variantes rápidas apareceram como faster-whisper baseado em CTranslate2 e versões leves destiladas. No entanto, Whisper tem limitações conhecidas. As versões grandes requerem uma GPU com 8–10 GB de VRAM, e o próprio modelo não recebeu atualizações significativas desde o lançamento da versão Large v3 em 2023. O mercado estava esperando uma alternativa digna. É aqui que se abre espaço para o modelo da Cohere.
2 bilhões de parâmetros — isso não é um compromisso, mas uma aposta deliberada em acessibilidade. Para comparação: Whisper Large v3, considerado o padrão de qualidade, tem 1,5 bilhão de parâmetros e requer um mínimo de 8 GB de VRAM em precisão média. O modelo da Cohere é ligeiramente maior em contagem de parâmetros, mas, julgando pela compatibilidade declarada com GPUs do consumidor, é melhor otimizado para execução sem um data center. O suporte para 14 idiomas cobre a maioria dos cenários de produção para empresas globais.
O status de código aberto também é uma questão de privacidade. Empresas nos setores financeiro, médico, jurídico e governamental não podem simplesmente enviar conversas e gravações sensíveis para os servidores de provedores terceirizados. Os requisitos regulatórios de HIPAA, GDPR, lei 152-ФЗ russa e leis similares exigem controle sobre o processamento de dados. Transcrição auto-hospedada remove essa barreira completamente: o áudio é processado localmente, nada vai para fora.
Até agora, a única opção madura para esses cenários permanecia Whisper com suas limitações de produção. Publicar uma ferramenta aberta é também um movimento estratégico da Cohere. Um modelo gratuito atrai desenvolvedores para o ecossistema da empresa, forma dependência futura de produtos em nuvem corporativos ao dimensionar os negócios e constrói uma reputação de parceiro em quem se pode confiar.
Essa é a mesma lógica que Meta usa com Llama e Mistral com seus modelos abertos: primeiro construir confiança através da abertura, depois monetizar através de enterprise. Benchmarks independentes aparecerão nas próximas semanas. Por enquanto, é incerto como o modelo se comporta sob ruído pesado, sotaques difíceis e terminologia especializada.
Se a precisão se mostrar comparável ao Whisper Large v3, isso mudará significativamente o equilíbrio de poder no segmento de transcrição de código aberto. Desenvolvedores criando sistemas de transcrição de reuniões, call centers, ferramentas de documentação médica ou notas de voz, devem adicionar o modelo da Cohere à sua lista de candidatos para teste.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.