Roubo de inferências de IA: como hackers lucram na Vercel através de proxies residenciais
Atacantes roubam chamadas caras de IA (de $1-2 por solicitação para modelos frontier) e revendem como OpenAI API com margem. Vercel foi capturada: 1.300 req/min
Processado por IA de Vercel Blog; editado por Hamidun News
Inference theft — roubo de chamadas caras de IA para revenda. Atacantes roubam tokens de startups, envolvem-nos em sua própria API e revendem como uma alternativa barata ao OpenAI ou Anthropic. Vercel publicou um relatório detalhado sobre um ataque em seus endpoints de IA, que revela a economia dos roubos e por que as proteções padrão da web são completamente ineficazes.
Por que as chamadas de IA são tão caras
Uma solicitação HTTP comum custa aproximadamente $2 por milhão de chamadas — quase gratuito. Mas uma solicitação para um modelo frontier (GPT-5.5, Claude 3.5 Sonnet) pode custar $1-2. Isto é um milhão de vezes mais caro do que um endpoint padrão. Para atacantes, esta é uma economia ideal de roubo: roubar uma chamada por $2 e revender por $1,50 — lucro puro sem nenhum custo marginal de inferência.
Como funciona o roubo — arquitetura do ataque
Atacantes criam um adaptador — uma camada de software que converte o endpoint alheio em uma API compatível com OpenAI. A vítima paga pelo inference, o atacante paga zero. O processo se parece assim:
- Registram milhares de contas descartáveis da vítima
- Compram IPs de proxy residencial em massa (milhares de endereços)
- Envolvem a API roubada em um adaptador
- Disponibilizam para sua base de clientes ou revendem no mercado negro
- Ganham com a diferença entre o preço roubado e o preço de revenda
Um exemplo real — Chipotlai Max, um fork de um agente de codificação que converte o chatbot de suporte do Chipotle em um endpoint compatível com OpenAI. O projeto está abertamente procurando desenvolvedores para o mesmo na Home Depot, Lowe's, Target e Starbucks.
Por que rate limits e autenticação não funcionam
Rate limits e autenticação foram projetados para proteger contra força bruta de senha e DDoS. A lógica é: roubar um milhão de senhas é mais caro do que protegê-las. Com inference theft, a matemática é inversa. Atacantes simplesmente compram IPs de proxy residencial individualmente — centenas e milhares de endereços. Um rate limit verificado uma vez por sessão é espalhado por mil chamadas roubadas, e não por solicitação individual. Uma conta com aparência real passa na autenticação. No momento em que a solicitação chega à sua API, ela já atravessou o limite que você planejava proteger.
Ataque real na Vercel
Em 12 de abril de 2026, o tráfego no chat de IA na documentação da Vercel aumentou 10 vezes. No pico — 1.300 solicitações por minuto para Claude Haiku 4.5. Isto correspondia a uma taxa de execução de $10.000 em perdas por hora. Os atacantes usaram proxies residenciais e contas novas para diluir os rate limits.
Como Vercel se protege
Vercel valida cada solicitação de IA através de BotID — uma análise profunda que é executada não uma vez por sessão, mas em cada solicitação individual. Em vez de verificar no início, a verificação ocorre em cada byte de dados. Isto pode ser implementado em seus próprios endpoints — algumas linhas de código bloqueiam tentativas automatizadas de roubo.
O que isto significa
Se você tem um endpoint de IA público (playground, suporte, document-AI) — rate limits e autenticação não salvam mais. A proteção deve ser executada no nível de solicitação, não na sessão. Para startups com acesso aberto, isto é crítico: um ataque sério pode custar dezenas de milhares de dólares em perdas.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.