A Liquid AI lançou o LFM2.5-230M: 213 tokens/s no Galaxy S25 e suporte a llama.cpp

A Liquid AI lançou o menor modelo de sua linha de pesos abertos: o LFM2.5-230M. São 230 milhões de parâmetros: 213 tokens/s no Galaxy S25 Ultra e 42 no…

Redação da Hamidun News

Monitoramento de AI · MarkTechPost

28 de jun. de 2026· 2 min

Processado por IA de MarkTechPost; editado por Hamidun News

A Liquid AI lançou o LFM2.5-230M: 213 tokens/s no Galaxy S25 e suporte a llama.cpp — Fonte: MarkTechPost. Colagem: Hamidun News.

◐ Ouvir artigo

Liquid AI lançou LFM2.5-230M — o modelo mais compacto da linha com pesos abertos. Com 230 milhões de parâmetros, cabe em um smartphone ou computador de placa única e ainda supera concorrentes com três a quatro vezes mais parâmetros nas tarefas para as quais foi projetado.

O que é LFM e o que a diferencia

LFM significa Liquid Foundation Model — a arquitetura proprietária da Liquid AI, fundada por ex-alunos do MIT. A abordagem difere fundamentalmente dos transformers padrão: em vez do mecanismo de atenção clássico, usa um design híbrido inspirado em equações diferenciais neurais. O resultado — modelos que funcionam de forma mais eficiente com menos parâmetros.

LFM2.5-230M é a menor da série, mas construída na mesma base que versões mais poderosas. Ela não pretende ser um assistente universal: o modelo é otimizado para tool use (chamar ferramentas externas e APIs em pipelines de agentes) e data extraction (extração estruturada de dados de texto não estruturado). É precisamente nessas tarefas que ela demonstra resultados superiores aos de concorrentes significativamente maiores.

Velocidade em hardware real e precisão em benchmarks

Liquid AI testou o desempenho não em servidores, mas em dispositivos do consumidor:

Galaxy S25 Ultra — 213 tokens por segundo
Raspberry Pi 5 — 42 tokens por segundo

Para contexto: velocidade de leitura confortável para um usuário é cerca de 15–25 tokens/s. O modelo funciona em um smartphone com margem oito vezes — suficiente até para aplicativos interativos em tempo real.

O que isso significa na prática: LFM2.5-230M pode rodar offline, sem chaves de API, sem custos de nuvem e sem transmitir dados para servidores terceirizados. Para produtos corporativos com requisitos de confidencialidade, este é um argumento convincente em si mesmo.

Em testes de seguimento de instruções, o modelo superou Qwen3.5-0.8B da Alibaba (mais de três vezes maior) e Gemma 3 1B do Google (quatro vezes maior). Esta é uma vitória não em rankings gerais, mas especificamente nas tarefas para as quais o modelo foi projetado.

Runtimes suportados

LFM2.5-230M é lançado com pesos abertos e suporta a pilha de inferência padrão completa:

llama.cpp — execução em CPU sem GPU em qualquer hardware
MLX — otimizado para chips Apple Silicon (M1–M4)
vLLM e SGLang — para implantação de alta carga do servidor
ONNX — padrão multiplataforma para implantação em produção

Cobertura máxima: de MacBook para servidor Linux, de Samsung flagship para computador de placa única de $80. Para modelos abertos, a amplitude do suporte ao ecossistema é um dos principais fatores para adoção no mundo real.

O que isso significa

Liquid AI demonstra claramente: eficiência arquitetônica desloca a corrida por parâmetros. Um modelo com 230 milhões de parâmetros que funciona em um smartphone mais rápido do que um humano consegue ler e supera analogs quatro vezes maiores é um argumento convincente para especialização sobre universalidade. Para desenvolvedores de aplicativos móveis de IA e pipelines de agentes, isso abre uma nova janela de possibilidades.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis