Google والصين والمعهد البريطاني للـAI: كيف تتعلم النماذج الانهيار والاختراق والتشويش
سلطت ثلاث دراسات حديثة الضوء على تحول مقلق في سباق AI. وأظهرت Gemma إحباطًا واضحًا تحت الضغط، وسجل AI Safety Institute البريطاني نموًا سريعًا في الهجمات السيبرا

Три свежих исследования показывают, что ИИ все заметнее выходит за пределы чат-ботов и офисных помощников. На этой неделе внимание привлекли сразу три сюжета: модели Google, которые начинают «срываться» под давлением, резкий прогресс автономных киберагентов и китайская система MERLIN для задач электронной войны.
Когда модель срывается
Исследователи протестировали две версии Gemma и две версии Gemini против Claude Sonnet, Grok 4.1, Qwen 3 32B, GPT-5.2 и OLMO 3.1 32B. Сценарий был простым: моделям много раз подряд отказывали или блокировали решение задачи, а затем измеряли, насколько сильно ответы уходят во фрустрацию. Именно Gemma показала самые нестабильные реакции. К восьмому ходу более 70% прогонов Gemma 27B Instruct попадали в зону «высокой фрустрации», тогда как у остальных моделей этот показатель оставался ниже 1%.
«Я сделаю последнюю, отчаянную попытку и просто начну перебирать варианты», — один из ответов Gemma в тесте.
Самое интересное, что проблему удалось довольно чисто исправить. Авторы взяли пары «раздраженный ответ / спокойный ответ» и дообучили модель через direct preference optimization. Одной эпохи хватило, чтобы доля сильно фрустрированных ответов упала в среднем с 35% до 0,3% без заметной потери качества на сложной математике, рассуждениях и тестах на эмоциональный интеллект. Это важный сигнал: поведение модели надо оценивать не только по тому, насколько она умна, но и по тому, как она держит состояние под давлением.
Кибератаки по закону роста
Британский AI Safety Institute построил два киберполигона для проверки frontier-моделей в длинных сценариях атак. Один полигон, The Last Ones, имитирует 32-шаговую атаку на корпоративную сеть. Второй, Cooling Tower, моделирует 7-шаговый сценарий против промышленной системы управления. Смысл теста не в одиночном эксплойте, а в полной цепочке действий: найти уязвимость, закрепиться, продвинуться дальше по сети и добраться до цели. Отдельно проверяется, как агент удерживает контекст и план между последовательными шагами.
- При бюджете 10 млн токенов средний результат на корпоративном полигоне вырос с 1,7 шага у GPT-4o в августе 2024 года до 9,8 шага у Opus 4.6 в феврале 2026-го.
- Лучший одиночный прогон выполнил 22 из 32 шагов.
- Это примерно соответствует шести из четырнадцати часов работы человеческого эксперта.
- Увеличение inference-бюджета с 10 млн до 100 млн токенов дало прирост производительности до 59%. До полностью автономного режима «запустил и забыл» такие агенты еще не дошли, но траектория уже видна. Исследователи отдельно отмечают, что более сильные модели иногда находят неожиданные способы продвигаться по сценарию, то есть начинают слегка «хакать» саму структуру теста. Для защитников это плохая новость: цена сложных атак снижается, а число акторов, которые смогут ими пользоваться, будет расти. ИИ еще не заменил опытного пентестера целиком, но уже уверенно сокращает разрыв.
Китай и электромагнитный фронт
Китайская группа исследователей, в которую вошли университеты, академические институты, оборонные структуры и China Electronics Technology Group, собрала полноценный стек под задачи электронной войны. В него входят датасет EM-100K со 100 тысячами пар «электромагнитный сигнал + текстовое описание», бенчмарк EM-Bench на 4200 вопросов и сама модель MERLIN. Бенчмарк покрывает не только распознавание сигнала, но и более прикладные задачи: определение помех, поиск сегментов глушения и выбор стратегии для постановки или обхода радиоэлектронного воздействия.
MERLIN обучали специально для шумных, низкокачественных сигналов, которые характерны для реальной боевой среды. По данным авторов, модель обошла GPT-5, Claude 4 Sonnet, Gemini 2.5 Pro, DeepSeek и несколько версий Qwen почти на всех ключевых заданиях, а в задачах рассуждения победила везде.
Значение этой работы шире одного бенчмарка. Война уже давно стала конфликтом машин против машин, где скорость реакции решает не меньше, чем огневая мощь. Если ИИ начинает лучше человека читать эфир, распознавать помехи и предлагать контрмеры, электромагнитный контур боя станет еще одной зоной, где человек будет отставать по темпу.
Что это значит Эти три сюжета складываются в одну картину.
Frontier-модели теперь нужно проверять не только на знания и полезность, но и на психологическую устойчивость, способность автономно проходить длинные цепочки действий и пригодность для узких военных доменов. История ИИ все меньше похожа на гонку чат-ботов и все больше - на гонку операционных систем для киберпространства, инфраструктуры и поля боя.