Hugging Face adiciona DeepInfra aos Inference Providers para executar modelos via API unificada

Hugging Face adicionou DeepInfra aos Inference Providers no Hub. Modelos DeepSeek, Kimi e GLM podem agora ser executados diretamente a partir das páginas de modelos, via SDKs Python e JavaScript e através do roteador unificado da Hugging Face. Cenários conversacionais e text-generation estão disponíveis no lançamento, com text-to-image, vídeo e embeddings por vir. Duas opções de cobrança estão disponíveis: via sua própria chave DeepInfra ou através de uma conta Hugging Face sem markup.

Khamidun Zhemal

Monitoramento de AI · Hugging Face Blog

30 de abr. de 2026· 3 min

Processado por IA de Hugging Face Blog; editado por Hamidun News

Hugging Face adiciona DeepInfra aos Inference Providers para executar modelos via API unificada — Fonte: Hugging Face Blog. Colagem: Hamidun News.

◐ Ouvir artigo

O Hugging Face adicionou DeepInfra à lista de Inference Providers no Hub. Agora os desenvolvedores podem executar modelos disponíveis através da DeepInfra diretamente a partir de páginas de modelos, através de SDKs de cliente e do roteador unificado do Hugging Face sem integração customizada separada.

O que foi lançado

A nova integração expande o ecossistema de inferência sem servidor dentro do Hugging Face. DeepInfra tornou-se um provedor suportado no Hub, o que significa que seus modelos podem ser selecionados exatamente onde os desenvolvedores já procuram por datasets, cartões de modelo e snippets de código prontos para executar modelos. No próprio anúncio, DeepInfra é descrito como uma plataforma de inferência de IA com mais de 100 modelos e um dos menores preços por token do mercado. Para o Hugging Face, este é mais um passo em direção a um modelo onde o Hub funciona não apenas como um catálogo, mas como um ponto unificado de execução de modelos.

No lançamento, a integração cobre cenários conversacionais e geração de texto padrão. Através da DeepInfra no Hugging Face, você já pode acessar modelos populares de open-weight como DeepSeek V4, Kimi-K2.6 e GLM-5.1. Ao mesmo tempo, a equipe já delineou o próximo estágio: no futuro, text-to-image, text-to-video, embeddings e outros tipos de tarefas devem aparecer através da mesma camada. Em outras palavras, isto não é sobre uma integração única de um ou dois LLMs, mas sobre conectar um canal computacional mais amplo à infraestrutura do Hugging Face.

Como funciona

Do ponto de vista do usuário, tudo está integrado na interface do Hub familiar. Nas configurações da conta, você pode adicionar suas próprias chaves de provedor e definir a ordem de preferência, e nas páginas de modelo do Hugging Face, mostra provedores externos compatíveis e gera widgets e exemplos de código para eles. Se uma chave não for especificada, as solicitações podem ir através do próprio Hugging Face. Se uma chave for fornecida, as chamadas são enviadas diretamente para a DeepInfra. Isso elimina configuração manual desnecessária e torna a alternância entre provedores notavelmente mais fácil.

Sua própria chave de API da DeepInfra para chamadas diretas sem intermediários
Modo roteado pelo HF, quando uma chave de provedor separada não é necessária
Classificação de provedores por prioridade do usuário
A mesma abordagem na interface do Hub, SDK Python e SDK JavaScript
Integração com harnesses de agentes populares sem configuração adicional

Para código, o esquema também é maximamente simples. DeepInfra está disponível através de `huggingface_hub` para Python e `@huggingface/inference` para JavaScript, e os exemplos no anúncio usam um cliente compatível com OpenAI com a URL base `https://router.huggingface.co/v1` e um token do Hugging Face. O modelo é especificado no formato `model:provider`, por exemplo para chamar DeepSeek através da DeepInfra.

É enfatizado separadamente que a integração já funciona em vários harnesses de agentes, portanto os modelos podem ser conectados não apenas em código bruto, mas também em ferramentas de agentes no topo da API comum.

Preços e acesso

Com o faturamento, o Hugging Face deixou dois cenários claros. Se um desenvolvedor usa sua própria chave DeepInfra, o pagamento vai para DeepInfra com suas taxas. Se a solicitação for roteada através do Hugging Face Hub, a cobrança vai através da conta do Hugging Face, mas sem markup adicional da plataforma: a empresa diz que simplesmente repassa o custo padrão da API do provedor. Para equipes, este é um detalhe importante, porque o roteador unificado não se torna outra camada de preço sobre a infraestrutura já existente.

Há também uma forma clara de testar a integração sem grandes despesas. Usuários do plano PRO recebem US$ 2 em créditos de inferência por mês, que podem ser gastos com diferentes provedores dentro deste sistema. Contas gratuitas também têm um pequeno limite de inferência, embora o Hugging Face incentive diretamente usuários ativos a mudar para PRO. Em termos práticos, isso reduz a barreira de entrada: você pode comparar rapidamente DeepInfra com outros provedores nos mesmos modelos sem construir uma configuração de teste separada ou configurar vários SDKs diferentes.

O que significa

O Hugging Face está transformando cada vez mais o Hub em uma camada de orquestração acima de múltiplos provedores de IA, não apenas um showcase de modelos. Para desenvolvedores, isso significa menos integração manual, testes mais rápidos de LLMs de open-weight e um caminho mais fácil para arquitetura multi-provedor sem reescrever código de cliente.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 50 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

Agendar consultoria grátis →