Habr AI→ original

OpenAI, Qwen e GigaChat: por que está cada vez mais difícil para as empresas russas escolher modelos de AI

As empresas russas esbarram cada vez mais em uma bifurcação incômoda: os LLMs ocidentais estão ficando menos acessíveis, os modelos totalmente locais custam…

Processado por IA de Habr AI; editado por Hamidun News
OpenAI, Qwen e GigaChat: por que está cada vez mais difícil para as empresas russas escolher modelos de AI
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

O mercado de IA russo está entrando em uma fase onde a escolha de modelo não é mais apenas uma questão de qualidade de resposta. Para empresas, agora é uma combinação de três fatores: a disponibilidade de serviços ocidentais, requisitos de dados e o custo da infraestrutura local.

Como a escolha se reduz

O autor descreve uma situação em que modelos ocidentais como OpenAI e Anthropic estão se tornando cada vez menos acessíveis para o negócio russo não apenas tecnicamente, mas também legalmente. Geobloqueios por país e restrições de IP já funcionam para alguns fornecedores, e em indústrias regulamentadas, até o acesso formalmente permitido através de proxy pouco resolve. Se o nome, telefone ou voz de um cliente aparecer em uma solicitação para uma API externa, parece uma transferência transfronteiriça de dados pessoais e esbarra nos requisitos da Lei Federal 152-FZ.

Isso coloca agentes de IA para suporte, vendas e centros de contato em uma zona de risco aumentado. Através desses modelos passa não texto abstrato, mas dados reais do usuário. Neste contexto, a demanda está crescendo na Rússia por soluções "soberanas", mas muitas vezes essa palavra esconde não modelos proprietários, mas versões adaptadas de sistemas abertos estrangeiros.

E é aqui que começa o principal compromisso: quanto maior a independência formal, mais pesada a economia.

Três cenários funcionais

O mercado essencialmente estabeleceu três abordagens. A primeira é construir um modelo base do zero, como faz o Sber com a família GigaChat. A segunda é pegar um modelo aberto forte, geralmente da família Qwen, e ajustá-lo no corpus em russo e dados de domínio, como fazem Yandex, T-Bank e Avito. A terceira é continuar usando APIs ocidentais através da zona cinzenta, se o negócio estiver disposto a aceitar o risco legal.

  • GigaChat — máximo controle e localidade, mas treinamento e inferência muito caros.
  • Qwen após ajuste fino — notavelmente mais barato e mais rápido para lançar, mas soberania aqui é condicional.
  • OpenAI e Anthropic — qualidade forte e economia clara, mas o acesso está se tornando cada vez mais instável.
  • Esquemas híbridos — um compromisso para negócios de médio mercado: comece na nuvem, depois migre para seu próprio perímetro.

O problema é que cada caminho tem custos que não podem ser ignorados. O treinamento do zero requer dezenas ou até centenas de milhões de dólares, um grande volume de dados e GPUs escassas de nível H100 ou H200. O ajuste fino do Qwen parece mais realista, mas a arquitetura base e os pesos permanecem chineses. Do ponto de vista da lógica regulatória rígida, isso não é independência completa, mas um compromisso cuidadosamente localizado.

Onde o dinheiro se perde

O argumento mais doloroso do artigo — não a qualidade do modelo, mas o preço da inferência. De acordo com os cálculos do autor em sua plataforma de agentes própria, um minuto de trabalho em um modelo OpenAI comparável custa menos de 1 rublo, enquanto um minuto em GigaChat-Max custa cerca de 80 rublos. Para agentes de voz e centros de contato, esta é uma diferença não em percentuais, mas em quase duas ordens de magnitude. Em tal modelo de custos, você pode fazer um bom produto tecnicamente, mas não pode justificá-lo economicamente.

"Uma solução totalmente russa é terrivelmente cara"

Um golpe adicional — infraestrutura. Um servidor capaz de servir cerca de mil sessões de agentes simultâneas, o autor estima em aproximadamente 55 milhões de rublos. Então outra armadilha entra em ação: para manter o token relativamente barato, GPUs precisam ser carregadas a 80-90%. Com demanda pequena e desigual, isso é difícil. O equipamento fica ocioso, e os custos com eletricidade, manutenção e depreciação não desaparecem. É por isso que a IA se amortiza em primeiro lugar onde há trabalho humano caro e carga constante: suporte, centros de contato, funções legais.

O que isso significa

Para equipes de produto, a conclusão é bastante dura: construir toda a sua arquitetura em um único provedor já é perigoso. Se uma empresa trabalha com LLMs em língua russa, ela precisa de um esquema agnóstico de modelo com comutação rápida entre OpenAI, GigaChat, soluções semelhantes a Qwen e um perímetro local. Caso contrário, qualquer novo ciclo de bloqueios, mudanças de preço ou requisitos de dados rapidamente transforma uma escolha técnica em um problema de negócio.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…