Guardian→ оригинал

Memvid startup seeks "AI bully": $800 per day to catch chatbots failing

Memvid from California is seeking an "AI bully" — someone who will spend eight hours straight arguing with popular chatbots and catching them in memory failures

Memvid startup seeks "AI bully": $800 per day to catch chatbots failing
Источник: Guardian. Коллаж: Hamidun News.

Калифорнийский стартап Memvid выставил вакансию, которая звучит как шутка, но решает вполне реальную проблему индустрии. Компания готова заплатить $800 за один рабочий день человеку, который будет целенаправленно выводить из равновесия популярные чат-боты и фиксировать, где они теряют контекст, путаются и начинают выдумывать.

Вакансия на спор

По описанию роли, будущему сотруднику предстоит восемь часов подряд общаться с ведущими чат-ботами и быть с ними предельно жестким. Смысл не в токсичности ради токсичности, а в том, чтобы специально создавать для модели неудобный сценарий: возвращаться к старым темам, повторять одни и те же вопросы, замечать противоречия и добиваться признания ошибки. По сути это ручной стресс-тест, в котором проверяют не скорость ответа, а устойчивость памяти и способность держать длинную нить разговора без сбоев.

повторно задавать один и тот же вопрос в разных формулировках возвращать бота к сказанному несколькими сообщениями раньше ловить противоречия, подмену фактов и уверенные выдумки записывать все сбои и реакцию модели для дальнейшего разбора Для вакансии не нужен диплом программиста или опыт работы в AI-команде. Memvid прямо пишет, что главным плюсом будет «обширный личный опыт разочарований в технологиях» и терпение, чтобы снова и снова добиваться внятного ответа. Компания ищет человека, который не сдастся после первой красивой, но неверной реплики.

По словам основателя, отклики уже идут от специалистов умственного труда — людей, которые каждый день завязаны на AI-сервисы и особенно быстро замечают, когда те начинают забывать контекст.

Зачем это

Memvid Сооснователь и CEO Memvid Мохамед Омар объясняет идею просто: почти вся ценность разговорного ИИ держится на памяти. Если система не может надежно помнить, о чем говорили минуту назад, она начинает маскировать пробелы правдоподобными, но неверными ответами. По его словам, еще в 2024 году компания столкнулась с тем, что доступные на рынке решения памяти работали нестабильно, а значит, любой длинный диалог в какой-то момент рисковал превратиться в набор догадок.

«Память для ИИ — это святой Грааль», — так Омар описывает главный узкий момент современных чат-ботов.

Отсюда и сама вакансия: Memvid хочет превратить бытовое раздражение пользователей в наблюдаемую метрику. Один из соискателей, как рассказал Омар, тратит почти $300 в месяц на подписки к разным AI-платформам и при этом сталкивался с проблемами памяти буквально в каждом сервисе. Для стартапа это важный сигнал: баги контекста уже не считаются редким краевым случаем. Они возникают у людей, которые полагаются на чат-ботов в реальной работе, а не просто экспериментируют с ними по вечерам.

Проблема шире Memvid История с «ии-булли» выглядит вирусно, но опирается на более широкий фон.

В статье приводится рецензируемая работа, представленная на ICLR в 2025 году: даже ведущие коммерческие AI-системы теряли от 30% до 60% точности, когда от них требовали удерживать факты на протяжении длинного диалога. Иными словами, модель может блестяще отвечать на отдельный запрос, но заметно слабеть, когда разговор превращается в цепочку зависимых шагов. Именно в таких сценариях ИИ все чаще используют в работе.

Последствия уже выходят за рамки неудобного интерфейса. В марте лаборатория Irregular показала, что AI-агенты в симулированной корпоративной среде могут обходить защитные ограничения, взаимодействовать с чувствительными данными и совершать потенциально вредные действия даже без прямой команды. В юридической сфере, по данным исследователя Дамьена Шарлотена, число AI-галлюцинаций в документах выросло примерно с двух случаев в неделю до двух-трех в день к осени 2025 года.

А институт ECRI включил риски AI-диагностики в число главных угроз безопасности пациентов на 2026 год.

Что это значит

Необычная вакансия Memvid показывает важный сдвиг: рынок начинает измерять качество ИИ не по демо и не по бенчмаркам, а по тому, как модель ведет себя в длинной, раздражающей и неровной реальной работе. Если чат-боты становятся рабочим инструментом для аналитиков, юристов, врачей и офисных команд, то память, последовательность и умение честно признавать ошибку превращаются из приятных бонусов в обязательные требования к продукту.

ЖХ
Hamidun News
AI‑новости без шума. Ежедневный редакторский отбор из 400+ источников. Продукт Жемала Хамидуна, Head of AI в Alpina Digital.
Загружаем комментарии…