Безопасность

Галлюцинация

Галлюцинация — явление, при котором языковая модель генерирует фактически неверную, выдуманную или не подкреплённую источниками информацию с той же уверенностью, что и достоверные факты.

Галлюцинация возникает из природы авторегрессивных языковых моделей: они предсказывают следующий токен на основе статистических закономерностей в обучающих данных, а не верифицируют утверждения по независимой базе фактов. В результате модель может «достроить» правдоподобный, но ложный факт — несуществующую научную статью с реальными авторами, неверную дату исторического события или вымышленную цитату реального человека.

Галлюцинации делятся на несколько типов: фактические (неверная информация о реальном мире), контекстуальные (противоречие тексту, предоставленному в промпте) и логические (ошибки в цепочках рассуждений). Их частота зависит от домена, качества инструкций и масштаба модели: меньшие модели галлюцинируют чаще, однако и крупные системы не застрахованы от ошибок в редких или узкоспециализированных запросах.

Практический ущерб от галлюцинаций значителен: в юридической, медицинской и финансовой сферах неверная фактическая информация может повлечь серьёзные последствия. Задокументированы реальные случаи, когда адвокаты подавали в суды несуществующие прецеденты, сгенерированные ChatGPT, что повлекло дисциплинарные санкции. Это делает независимую верификацию выводов ИИ обязательной в профессиональных контекстах.

К 2026 году основными методами снижения галлюцинаций стали RAG (retrieval-augmented generation — генерация с поиском по внешним источникам), grounding (привязка ответов к конкретным документам с цитируемыми фрагментами) и модели-верификаторы, проверяющие выходные данные основной системы. Тем не менее ни одному провайдеру не удалось полностью устранить явление; в технических спецификациях крупных систем галлюцинация по-прежнему фигурирует как известное ограничение.

Пример

Юридическая фирма, использующая ИИ-ассистента для подготовки аргументов, внедрила RAG-пайплайн: каждая ссылка на судебный прецедент автоматически верифицируется по базе Westlaw прежде, чем попасть в итоговый документ.

Связанные термины

← Глоссарий