Novas GPUs reduzirão o custo da inferência, mas não os preços para usuários
A inferência (implantação de modelos de IA) fica mais cara devido ao aumento da carga na infraestrutura. A nova geração de GPUs e aceleradores especializados…
Processado por IA de 3DNews AI; editado por Hamidun News
Todos os dias, os serviços de IA ficam mais caros devido ao aumento da carga na infraestrutura. As empresas gastam cada vez mais em servidores e processadores gráficos para inferência — a fase em que um modelo treinado funciona e responde às solicitações dos usuários. E os consumidores sentem isso nas contas de API e assinaturas.
Por que a inferência é tão cara
Inferência não é treinamento de modelo. O modelo é treinado uma vez, e então é executado milhares de vezes por dia em milhares de servidores. Cada solicitação do usuário requer computação em GPU. Quando milhões de pessoas escrevem simultaneamente no ChatGPT, isso cria uma carga imensa.
Os desenvolvedores têm duas opções: comprar mais GPUs ou lidar com filas. A NVIDIA vende seus H100 e B100 por centenas de milhares de dólares cada. OpenAI, Google e Meta os compram aos milhares. Além disso, eles pagam por eletricidade (vários quilowatts por chip) e resfriamento (sistemas especiais de refrigeração por água). É por isso que a assinatura do Claude Pro custa $20 por mês — é simplesmente engenharia de infraestrutura.
Salvação do novo hardware
Os fabricantes de processadores veem o problema e lançam hardware especializado para inferência. A NVIDIA está preparando a série Blackwell para IA, a Intel está desenvolvendo Gaudi, a AMD está aperfeiçoando MI300X.
A nova geração promete:
- Menor consumo de energia (30–40% mais barato por ano em eletricidade)
- Maior desempenho por watt (um novo chip substituirá dois antigos)
- Otimização para modelos típicos (menos memória, cálculos mais rápidos)
- Escalabilidade (mais fácil construir uma farm com milhares de chips)
Em teoria, isso pode reduzir o custo operacional da inferência em 25–50%.
Mas os preços para o usuário não cairão
The Register justamente lembra: quando o equipamento fica mais barato, raramente leva a uma redução de preços para o consumidor final. Eis o motivo:
Em primeiro lugar, os desenvolvedores ainda pagam por eletricidade, racks, resfriamento e depreciação de GPUs antigas (que não desaparecem em um dia). Em segundo lugar, as empresas usam a economia para desenvolver novos recursos e expandir o número de parâmetros em modelos — isso é caro e requer novamente mais GPUs. Em terceiro lugar, o mercado é jovem. OpenAI, Google e Anthropic ainda estabelecem preços sem competir agressivamente por preço. Eles competem por qualidade e recursos. Quando houver 20 serviços comparáveis no mercado, os preços cairão — mas isso não é hoje.
O que isso significa
O novo hardware é um presente para as empresas, não para os consumidores. As GPUs que ficam mais baratas permitirão que os serviços de IA permaneçam lucrativos mesmo com a crescente demanda. Provavelmente, a economia será usada para treinar novos modelos, expandir geograficamente e melhorar o atendimento — mas não para descontos aos assinantes. Os serviços de IA permanecerão caros enquanto isso funcionar.
*Meta é reconhecida como organização extremista e proibida na RF.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.