Novas GPUs reduzirão o custo da inferência, mas não os preços para usuários

Q: Qual é a fonte?

Publicado originalmente em 3DNews AI. O Hamidun News processa e adapta os materiais com IA.

Q: Quando foi publicado?

25 de mai. de 2026. Tempo de leitura: 3 min.

A inferência (implantação de modelos de IA) fica mais cara devido ao aumento da carga na infraestrutura. A nova geração de GPUs e aceleradores especializados…

Redação da Hamidun News

Monitoramento de AI · 3DNews AI

25 de mai. de 2026· 3 min

Processado por IA de 3DNews AI; editado por Hamidun News

Novas GPUs reduzirão o custo da inferência, mas não os preços para usuários — Fonte: 3DNews AI. Colagem: Hamidun News.

◐ Ouvir artigo

Todos os dias, os serviços de IA ficam mais caros devido ao aumento da carga na infraestrutura. As empresas gastam cada vez mais em servidores e processadores gráficos para inferência — a fase em que um modelo treinado funciona e responde às solicitações dos usuários. E os consumidores sentem isso nas contas de API e assinaturas.

Por que a inferência é tão cara

Inferência não é treinamento de modelo. O modelo é treinado uma vez, e então é executado milhares de vezes por dia em milhares de servidores. Cada solicitação do usuário requer computação em GPU. Quando milhões de pessoas escrevem simultaneamente no ChatGPT, isso cria uma carga imensa.

Os desenvolvedores têm duas opções: comprar mais GPUs ou lidar com filas. A NVIDIA vende seus H100 e B100 por centenas de milhares de dólares cada. OpenAI, Google e Meta os compram aos milhares. Além disso, eles pagam por eletricidade (vários quilowatts por chip) e resfriamento (sistemas especiais de refrigeração por água). É por isso que a assinatura do Claude Pro custa $20 por mês — é simplesmente engenharia de infraestrutura.

Salvação do novo hardware

Os fabricantes de processadores veem o problema e lançam hardware especializado para inferência. A NVIDIA está preparando a série Blackwell para IA, a Intel está desenvolvendo Gaudi, a AMD está aperfeiçoando MI300X.

A nova geração promete:

Menor consumo de energia (30–40% mais barato por ano em eletricidade)
Maior desempenho por watt (um novo chip substituirá dois antigos)
Otimização para modelos típicos (menos memória, cálculos mais rápidos)
Escalabilidade (mais fácil construir uma farm com milhares de chips)

Em teoria, isso pode reduzir o custo operacional da inferência em 25–50%.

Mas os preços para o usuário não cairão

The Register justamente lembra: quando o equipamento fica mais barato, raramente leva a uma redução de preços para o consumidor final. Eis o motivo:

Em primeiro lugar, os desenvolvedores ainda pagam por eletricidade, racks, resfriamento e depreciação de GPUs antigas (que não desaparecem em um dia). Em segundo lugar, as empresas usam a economia para desenvolver novos recursos e expandir o número de parâmetros em modelos — isso é caro e requer novamente mais GPUs. Em terceiro lugar, o mercado é jovem. OpenAI, Google e Anthropic ainda estabelecem preços sem competir agressivamente por preço. Eles competem por qualidade e recursos. Quando houver 20 serviços comparáveis no mercado, os preços cairão — mas isso não é hoje.

O que isso significa

O novo hardware é um presente para as empresas, não para os consumidores. As GPUs que ficam mais baratas permitirão que os serviços de IA permaneçam lucrativos mesmo com a crescente demanda. Provavelmente, a economia será usada para treinar novos modelos, expandir geograficamente e melhorar o atendimento — mas não para descontos aos assinantes. Os serviços de IA permanecerão caros enquanto isso funcionar.

*Meta é reconhecida como organização extremista e proibida na RF.

Hamidun News

Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Canal do Telegram RSS hamidun.com

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

🎓 Academy — 7 dias grátis Consultoria grátis