Zyphra lançou Zamba2-VL: modelos visuais com resposta 10x mais rápida
Zyphra lançou uma família de modelos multimodais abertos Zamba2-VL — três variantes: 1,2B, 2,7B e 7B parâmetros, licença Apache 2.0. Arquitetura híbrida…
Processado por IA de MarkTechPost; editado por Hamidun News
A Zyphra lançou uma família aberta de modelos visão-linguagem, Zamba2-VL, em variantes de 1.2B, 2.7B e 7B parâmetros. No seu núcleo está uma arquitetura híbrida que combina blocos Mamba2 e Transformer. O resultado-chave: o tempo até o primeiro token é reduzido em aproximadamente 10 vezes em comparação com modelos VLM Transformer puros de tamanho comparável.
Três tamanhos, uma licença
A família inclui três variantes: 1.2B, 2.7B e 7B parâmetros. Os três são lançados sob a licença Apache 2.0, o que significa uso comercial gratuito sem restrições em incorporação, modificação e redistribuição — liberdade total para projetos comerciais e de pesquisa.
Zamba2-VL são modelos visão-linguagem completos. Eles processam conjuntamente imagens e texto, abrindo aplicações em uma ampla gama de tarefas: legendagem de imagens e fotos, resposta a perguntas visuais, análise de documentos com ilustrações, análise de capturas de tela de interface do usuário, trabalho com imagens médicas.
Ao contrário de LLMs de texto puro, VLMs podem responder perguntas sobre o que é retratado em uma imagem e combinar contexto visual e textual em uma única solicitação.
Em termos de qualidade em benchmarks padrão, Zamba2-VL se mantém no mesmo nível que VLMs Transformer puros de tamanho comparável. A transição para arquitetura híbrida não requer sacrificar a precisão pela velocidade — ambas as métricas permanecem competitivas.
Como funciona a espinha dorsal híbrida
A maioria dos modelos modernos de linguagem e multimodais é construída em arquitetura Transformer pura. Nela, cada token recém-gerado "revisa" toda a sequência anterior através de um mecanismo de atenção (attention). Esta é uma abordagem poderosa, mas computacionalmente cara: com contextos longos, a carga de trabalho cresce quadraticamente. É aqui que surge o gargalo de desempenho — incluindo alto tempo até o primeiro token.
Mamba2 é uma arquitetura baseada em modelos de espaço de estado (SSM). Em vez de revisar exaustivamente o histórico, ela comprime o contexto anterior em um "estado" compacto que se atualiza linearmente conforme novos tokens são processados.
Zamba2-VL alterna blocos Mamba2 com camadas Transformer regulares: blocos SSM fornecem velocidade e eficiência, camadas Transformer adicionam flexibilidade ao lidar com dependências complexas.
O resultado:
- Tempo até o primeiro token é reduzido em aproximadamente 10 vezes
- A qualidade permanece competitiva com VLMs Transformer puros
- Pegada computacional menor durante a inferência
- Melhor escalabilidade em contextos longos
- Capacidade de implantar em hardware menos poderoso sem perder responsividade
Por que TTFT importa
Tempo até o primeiro token (time-to-first-token, TTFT) é o intervalo entre enviar uma solicitação e o aparecimento do primeiro caractere da resposta. Ele determina o senso de "vivacidade" em sistemas interativos: chatbots, assistentes de voz, serviços de API, onde a velocidade de resposta é importante. Enquanto o modelo pensa — o usuário espera. TTFT alto se sente como "congelamento", mesmo que a resposta final seja de alta qualidade.
Uma redução de 10 vezes em TTFT é um ganho prático significativo. Com os mesmos recursos de hardware, isto significa ou um serviço significativamente mais responsivo ou a capacidade de lidar com substancialmente mais solicitações simultaneamente. Para empresas que pagam pelo tempo de GPU, ambas as opções impactam diretamente a economia unitária do produto.
Modelos abertos com tal velocidade de resposta permitem construir
produtos onde a latência de resposta anteriormente tornava uma classe inteira de soluções inviável.
O que significa
Arquiteturas híbridas SSM + Transformer continuam se movendo de artigos acadêmicos para produtos práticos. O lançamento de Zamba2-VL como uma família de três modelos — do compacto 1.2B ao de tamanho completo 7B — cobre diferentes cenários de implantação: de dispositivos com recursos limitados a fazendas de servidores. A licença aberta sob Apache 2.0 reduz a barreira de entrada: equipes podem pegar um modelo multimodal rápido pronto sem dependência de APIs comerciais — com todos seus preços, limites de taxa e risco de mudanças súbitas nas condições.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.