Кража AI-инференсов: как hackers наживаются на Vercel через residential proxies
Attackers воруют дорогие AI-вызовы (от $1-2 за запрос к frontier-модели) и перепродают как OpenAI API с маржой. Vercel поймала себе: 1300 req/min через чужие ак

Inference theft — это кража дорогих AI-вызовов для перепродажи. Attackers крадут токены у стартапов, оборачивают их в собственный API и перепродают как дешёвую альтернативу OpenAI или Anthropic. Vercel опубликовала детальный отчёт об атаке на свои AI-endpoints, которая раскрывает экономику краж и почему стандартные веб-защиты полностью неэффективны.
Почему AI-вызовы так дорогие
Обычный HTTP-запрос стоит примерно $2 за миллион обращений — почти бесплатно. Но один запрос к frontier-модели (GPT-5.5, Claude 3.5 Sonnet) может обойтись в $1-2. Это миллион раз дороже, чем стандартная эндпоинт. Для attackers это идеальная экономика краж: украсть один вызов за $2 и перепродать за $1,50 — чистая прибыль без каких-либо маржинальных затрат на инференс.
Как работает кража — архитектура атаки
Attackers создают адаптер — это программный слой, который переделывает чужой эндпоинт в OpenAI-compatible API. Жертва платит за инференсы, attacker платит ноль. Процесс выглядит так: Регистрируют thousands throwaway-акаунтов у жертвы Покупают residential proxy IPs оптом (тысячами адресов) Оборачивают украденный API в адаптер Пускают его своей клиентской базе или перепродают на тёмном рынке * Зарабатывают на разнице между украденной ценой и ценой перепродажи Реальный пример — Chipotlai Max, форк coding-агента, который превращает чат-бот поддержки Chipotle в OpenAI-compatible endpoint. Проект открыто ищет разработчиков для того же на Home Depot, Lowe's, Target и Starbucks.
Почему rate limits и auth не работают
Rate limits и authentication были спроектированы для защиты от перебора паролей и DDoS. Там расчёт такой: украсть миллион паролей дороже, чем их защищать. С inference theft математика обратная. Attackers просто покупают residential proxy IPs по отдельности — сотни и тысячи адресов. Rate limit, который проверяется один раз на сессию, размазывается на всю тысячу украденных вызовов, а не на отдельный запрос. Real-looking аккаунт проходит auth. К моменту, когда запрос дошёл до вашего API, он уже пересёк границу, которую вы планировали защищать.
Реальная атака на
Vercel В 12 апреля 2026 года трафик на AI-чат в документации Vercel вырос в 10 раз. На пике — 1,300 запросов в минуту на Claude Haiku 4.5. Это соответствовало run rate в $10,000 убытков в час. Attackers использовали residential proxies и fresh-акаунты для разбавления rate limits.
Как защищается
Vercel Vercel гатит каждый AI-запрос через BotID — deep analysis, которая запускается не один раз на сессию, а на каждый отдельный запрос. Вместо проверки в начале, проверка идёт в каждом байте данных. Это можно внедрить на своих эндпоинтах — несколько строк кода блокируют автоматизированные попытки краж.
Что это значит
Если у вас есть публичный AI-endpoint (playground, поддержка, документ-AI) — rate limits и auth уже не спасают. Защита должна запускаться на уровне запроса, не на сессию. Для стартапов с открытым доступом это критично: одна серьёзная атака может стоить десятки тысяч долларов убытков.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.