TechCrunch→ original

Cohere lançou um modelo open-source para transcrição — 2 bilhões de parâmetros e 14 idiomas

Cohere lançou um modelo de voz de código aberto voltado especificamente para transcrição. Com apenas 2 bilhões de parâmetros, ele foi projetado para rodar em…

Processado por IA de TechCrunch; editado por Hamidun News
Cohere lançou um modelo open-source para transcrição — 2 bilhões de parâmetros e 14 idiomas
Fonte: TechCrunch. Colagem: Hamidun News.
◐ Ouvir artigo

A Cohere lançou um modelo de código aberto para transcrição de fala. Ao contrário da maioria dos concorrentes, o modelo pesa apenas 2 bilhões de parâmetros — isso foi deliberado, para permitir que ele seja executado em uma GPU comum do consumidor sem recorrer a clusters de servidores caros ou APIs em nuvem. A empresa posiciona a nova ferramenta como um instrumento para desenvolvedores que desejam implantar transcrição por conta própria.

A Cohere é uma empresa canadense de IA fundada em 2019 por ex-alunos do Google Brain. Até agora, era conhecida principalmente como fornecedora de modelos de linguagem corporativos: seu modelo Command de ponta compete com GPT-4 e Claude no segmento empresarial, e seu sistema de embeddings Embed é usado em milhares de aplicações de produção para busca semântica. Ferramentas de voz são uma nova direção para a empresa, e imediatamente com foco em especialização: em vez de uma solução multimodal universal, eles lançaram uma ferramenta afinada para uma única tarefa.

O mercado de reconhecimento automático de fala está passando por uma transformação. Historicamente, era controlado por gigantes tecnológicos: Google Speech-to-Text, Amazon Transcribe, Microsoft Azure Speech. Todos funcionam em um modelo em nuvem — o áudio vai para os servidores do provedor, é processado lá e o texto retorna. Isso cria dois problemas: despesas crescentes com grandes volumes e preocupações de privacidade, críticas para certos setores. Os grandes provedores ganham dinheiro com escala, mas para startups e empresas de médio porte, o custo da transcrição em nuvem rapidamente se torna um item significativo de despesa.

Um ponto de virada chegou em 2022, quando a OpenAI lançou Whisper — um modelo de transcrição de código aberto que pode ser executado localmente. O Whisper mudou o mercado: desenvolvedores migraram em massa para transcrição auto-hospedada, e variantes rápidas apareceram como faster-whisper baseado em CTranslate2 e versões leves destiladas. No entanto, Whisper tem limitações conhecidas. As versões grandes requerem uma GPU com 8–10 GB de VRAM, e o próprio modelo não recebeu atualizações significativas desde o lançamento da versão Large v3 em 2023. O mercado estava esperando uma alternativa digna. É aqui que se abre espaço para o modelo da Cohere.

2 bilhões de parâmetros — isso não é um compromisso, mas uma aposta deliberada em acessibilidade. Para comparação: Whisper Large v3, considerado o padrão de qualidade, tem 1,5 bilhão de parâmetros e requer um mínimo de 8 GB de VRAM em precisão média. O modelo da Cohere é ligeiramente maior em contagem de parâmetros, mas, julgando pela compatibilidade declarada com GPUs do consumidor, é melhor otimizado para execução sem um data center. O suporte para 14 idiomas cobre a maioria dos cenários de produção para empresas globais.

O status de código aberto também é uma questão de privacidade. Empresas nos setores financeiro, médico, jurídico e governamental não podem simplesmente enviar conversas e gravações sensíveis para os servidores de provedores terceirizados. Os requisitos regulatórios de HIPAA, GDPR, lei 152-ФЗ russa e leis similares exigem controle sobre o processamento de dados. Transcrição auto-hospedada remove essa barreira completamente: o áudio é processado localmente, nada vai para fora.

Até agora, a única opção madura para esses cenários permanecia Whisper com suas limitações de produção. Publicar uma ferramenta aberta é também um movimento estratégico da Cohere. Um modelo gratuito atrai desenvolvedores para o ecossistema da empresa, forma dependência futura de produtos em nuvem corporativos ao dimensionar os negócios e constrói uma reputação de parceiro em quem se pode confiar.

Essa é a mesma lógica que Meta usa com Llama e Mistral com seus modelos abertos: primeiro construir confiança através da abertura, depois monetizar através de enterprise. Benchmarks independentes aparecerão nas próximas semanas. Por enquanto, é incerto como o modelo se comporta sob ruído pesado, sotaques difíceis e terminologia especializada.

Se a precisão se mostrar comparável ao Whisper Large v3, isso mudará significativamente o equilíbrio de poder no segmento de transcrição de código aberto. Desenvolvedores criando sistemas de transcrição de reuniões, call centers, ferramentas de documentação médica ou notas de voz, devem adicionar o modelo da Cohere à sua lista de candidatos para teste.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…