Habr AI→ original

OpenAI e Anthropic redefinem o cálculo de custos de modelos de linguagem: em 2026, o preço da tarefa é importante

A métrica fundamental do mercado de LLM está mudando. OpenAI está trasladando seus planos corporativos para um modelo de precificação mais flexível baseado…

Processado por IA de Habr AI; editado por Hamidun News
OpenAI e Anthropic redefinem o cálculo de custos de modelos de linguagem: em 2026, o preço da tarefa é importante
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O mercado de grandes modelos de linguagem entra em uma nova fase: um token mais barato não significa mais um orçamento previsível. Quase simultaneamente, OpenAI e Anthropic demonstraram que em 2026, as empresas precisarão calcular não apenas o preço por milhão de tokens, mas também o custo total de completar uma tarefa. Para empresas que constroem produtos em cenários de agentes, isso muda a própria lógica de compras, planejamento e unit economics.

O primeiro sinal veio da Anthropic. A empresa migrou seus frameworks de agentes para billing baseado em uso, ou seja, pagamento pelo consumo real de tokens em vez de assinaturas fixas. Na prática, isso significa que alguns wrappers externos e serviços que antes podiam operar em modelo flat-rate perdem seu suporte financeiro anterior. Enquanto a carga era relativamente previsível, a assinatura parecia conveniente tanto para o provedor quanto para o cliente. Mas em sistemas de agentes, os custos computacionais crescem rapidamente: o modelo não simplesmente responde a uma solicitação, mas planeja etapas, faz múltiplas chamadas, acessa ferramentas, verifica novamente os resultados e pode executar uma longa cadeia de ações.

Paralelamente, OpenAI mudou sua abordagem para clientes corporativos. Nos planos Enterprise, Business e EDU, a empresa introduziu preços mais flexíveis, onde o custo escala com o volume de uso em vez de permanecer rigidamente vinculado a licenças de seat. Para equipes de compras, essa é uma mudança importante. Até recentemente, podia-se ver a assinatura como um item de despesa quase fixo, mas agora o modelo se aproxima dos serviços na nuvem: o pagamento depende muito mais da intensidade real de uso.

Quanto mais ativamente os funcionários usam geração, busca, análise de documentos e funções de agentes, mais notavelmente a conta muda.

Isso não cancela outra tendência que o mercado observou nos últimos dois anos. De 2023 a 2025, as APIs realmente ficaram mais baratas, e o custo por milhão de tokens para modelos de classe GPT-4 diminuiu. Por isso, muitos times acostumaram-se a pensar por uma regra simples: se o preço do token cai, então a implementação de LLM automaticamente fica mais lucrativa com o tempo.

Em 2026, essa regra já não funciona sem ressalvas. A métrica-chave agora não é o preço por token em si, mas o custo de resolver uma tarefa específica. Se um resultado útil exigir que o sistema faça múltiplas passagens, use contexto longo, faça chamadas de ferramentas, execute verificações adicionais e regenere múltiplas vezes, a conta total pode crescer mesmo diante de uma API formalmente mais barata.

Isso é especialmente perceptível em produtos de agentes, onde um cenário que parece para o usuário uma única ação pode internamente se desdobrar em dezenas de operações de modelo.

Disso decorre uma conclusão prática para os times. O orçamento de LLM agora precisa ser construído em torno do custo da ação completada: quanto custa um relatório, uma análise de documento, uma sessão de assistente ou um workflow de agente executado com sucesso. Daí surgem novos requisitos de produto: eliminação de passos desnecessários, controle da profundidade de raciocínio do agente, redução de contexto, caching, roteamento para modelos mais baratos onde permitido, e medição rigorosa de quais chamadas realmente criam valor.

Para CTOs, CPOs e equipes financeiras, isso significa uma transição de conversas sobre "IA barata" para operações econômicas adequadas, onde o que importa não é um preço bonito em uma tabela, mas o custo de um resultado de negócio específico.

O ponto principal dessa mudança é que o mercado de LLM não parou de ficar mais barato, mas parou de ser ingenuamente simples. Compute crunch em 2026 não é apenas uma questão de capacidade disponível, mas também de gerenciar despesas. Os vencedores não serão as empresas que buscam o preço mais baixo por token, mas aquelas que conseguem calcular o custo do resultado final e projetar sistemas para que cada token adicional traga valor mensurável.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…