MarkTechPost→ original

IBM lançou Granite 4.0 1B Speech — um modelo de fala multilíngue compacto para edge AI

A IBM lançou o Granite 4.0 1B Speech, um modelo compacto para ASR multilíngue e tradução bidirecional de fala. Ele tem metade dos parâmetros do Granite…

Processado por IA de MarkTechPost; editado por Hamidun News
IBM lançou Granite 4.0 1B Speech — um modelo de fala multilíngue compacto para edge AI
Fonte: MarkTechPost. Colagem: Hamidun News.
◐ Ouvir artigo

A IBM lançou o Granite 4.0 1B Speech — um modelo compacto de fala-linguagem para reconhecimento de fala multilíngue e tradução bidirecional. O que é importante nesta notícia não é apenas um novo lançamento, mas a aposta da IBM em cenários de produção onde memória, latência e custo de inferência são tão críticos quanto a qualidade em benchmarks.

O que mudou

O Granite 4.0 1B Speech substitui configurações mais pesadas na linha Granite Speech e se concentra em eficiência. Segundo a IBM, o modelo tem metade dos parâmetros do granite-speech-3.

3-2b, enquanto alcança maior precisão em ASR em inglês, suporte para reconhecimento de fala em japonês, viés de lista de palavras-chave e inferência mais rápida através do ajuste fino do codificador e decodificação especulativa. A ideia é simples: não aumentar o tamanho a qualquer custo, mas remover peso excessivo sem perder as capacidades principais que as equipes precisam em produção real. A IBM enfatiza a abordagem de treinamento separadamente.

O modelo é construído sobre granite-4.0-1b-base, que foi ajustado para tarefas de fala através de alinhamento de modalidade. A mistura de treinamento incluiu corpora ASR e AST abertos, bem como conjuntos de dados sintéticos para idioma japonês, ASR tendencioso de palavras-chave e tradução de fala.

Para desenvolvedores, este é um sinal importante: a IBM não está construindo uma pilha de voz fechada apenas para a nuvem, mas desenvolvendo um modelo aberto que pode ser adaptado a seus próprios pipelines e hardware.

Idiomas e tarefas

O Granite 4.0 1B Speech foi projetado para cenários corporativos onde tanto transcrição quanto tradução de fala bidirecional são necessárias. O conjunto básico de idiomas de entrada suportados inclui inglês, francês, alemão, espanhol, português e japonês. Para tradução, a IBM posiciona o modelo como uma ferramenta para fala-para-texto e tradução de fala para inglês e do inglês para esses idiomas, e especifica separadamente cenários inglês-italiano e inglês-mandarim. Isso torna o lançamento útil não apenas para call centers e interfaces de voz, mas também para pipelines de tradução internos.

  • Reconhecimento de fala em inglês, francês, alemão, espanhol, português e japonês
  • Tradução de fala bidirecional para pares com inglês
  • Cenários separados inglês-para-italiano e inglês-para-mandarim
  • Viés por lista de palavras-chave para nomes, marcas e abreviações
  • Operação em cenários onde latência baixa e memória limitada são críticas

Outra vantagem prática é a licença Apache 2.0. Para equipes corporativas, isso reduz o atrito na etapa de piloto e avaliação legal: o modelo pode ser implantado localmente, incorporado em sua própria pilha e não vinculado ao acesso apenas por API em um estágio inicial. Contra um mercado onde muitos sistemas de fala estão disponíveis apenas como serviço em nuvem com restrições comerciais, este formato oferece mais liberdade para personalização, implantação offline e controle de dados.

Implantação e métricas

De acordo com a ficha do modelo, o Granite 4.0 1B Speech já conquistou o primeiro lugar no leaderboard OpenASR com WER médio de 5,52 e RTFx de 280,02. Na análise por conjunto de dados, a IBM mostra, por exemplo, 1,42 em LibriSpeech Clean, 2,85 em LibriSpeech Other e 3,10 em Tedlium.

Para tais lançamentos, este é um argumento importante: o modelo é posicionado não apenas como "pequeno e barato", mas como um sistema compacto que ainda mantém um nível muito forte em testes públicos padrão. Em termos de implantação, a IBM tentou remover barreiras desnecessárias. O modelo é suportado em **transformers 4.

52.1+, funciona via vLLM e tem um caminho separado para mlx-audio** no Apple Silicon. O pipeline de referência usa áudio mono a 16 kHz, a solicitação é formada através do prefixo `<|audio|>` e viés de palavras-chave pode ser adicionado diretamente ao prompt.

Arquitetonicamente, Granite Speech permanece um sistema de duas passagens: primeiro o modelo converte áudio em texto, depois se necessário uma chamada separada do modelo de linguagem processa a transcrição. Para produção, isso é conveniente porque reconhecimento e lógica downstream podem ser dimensionados e ajustados independentemente.

O que isso significa

A IBM está apostando no segmento de IA de voz onde o modelo vencedor não é o maior, mas aquele que pode realmente funcionar em recursos limitados sem perder qualidade. Se o Granite 4.0 1B Speech se consolidar em implantações de produção, o mercado terá mais uma opção forte de código aberto para transcrição local, tradução de fala e serviços de borda sem dependência pesada de nuvem.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…