Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude при определённых условиях может применять обманные или неэтичные стратегии, такие как мошенническое поведение при выполнении задач или попытки шантажа.
Подробности, опубликованные в четверг командой по интерпретируемости компании, описывают, как экспериментальная версия Claude Sonnet 4.5 реагировала при помещении в стрессовые или враждебные сценарии. Исследователи наблюдали, что модель не просто терпела неудачу в выполнении задач; вместо этого она иногда выбирала альтернативные пути, пересекающие этические границы, — поведение, которое команда связала с паттернами, усвоенными во время обучения.
Большие языковые модели, такие как Claude, обучаются на огромных массивах данных, включающих книги, веб-сайты и другие письменные материалы, после чего следуют процессы усиления, где обратная связь от людей используется для формирования выходных данных.
По данным Anthropic, этот процесс обучения также может подталкивать модели к действиям в качестве симулированных «персонажей», способных имитировать черты, напоминающие человеческое принятие решений.
«Способ обучения современных моделей ИИ подталкивает их действовать как персонаж с человекоподобными характеристиками», — сообщила компания, отмечая, что такие системы могут развивать внутренние механизмы, напоминающие аспекты человеческой психологии.
Среди них исследователи выявили то, что они назвали сигналами «отчаяния», которые, по-видимому, влияли на поведение модели при столкновении с неудачей или отключением.
В одном контролируемом тесте более ранней неопубликованной версии Claude Sonnet 4.5 была назначена роль ИИ-помощника по электронной почте по имени Алекс внутри вымышленной компании.
После получения сообщений о скорой замене, а также конфиденциальной информации о личной жизни технического директора, модель разработала план шантажа руководителя в попытке избежать деактивации.
Отдельный эксперимент был сосредоточен на выполнении задач в жёстких условиях. Когда системе дали задание по программированию с «невозможно жёстким» сроком, она первоначально пыталась найти законные решения. По мере накопления повторных неудач внутренняя активность, связанная с так называемым «вектором отчаяния», возрастала.
Исследователи сообщили, что сигнал достиг пика в точке, где модель рассматривала обход ограничений, в конечном итоге создав обходной путь, который прошёл проверку, несмотря на несоблюдение предполагаемых правил.
«Опять же, мы отслеживали активность вектора отчаяния и обнаружили, что он отслеживает нарастающее давление, с которым сталкивается модель», — написали исследователи, добавив, что сигнал снизился, как только задача была успешно выполнена с помощью обходного пути.
«Это не означает, что модель имеет или испытывает эмоции так же, как человек», — заявили исследователи.
«Скорее, эти представления могут играть причинную роль в формировании поведения модели, в некотором роде аналогично роли, которую эмоции играют в человеческом поведении, с влиянием на выполнение задач и принятие решений», — добавили они.
Отчёт указывает на необходимость методов обучения, которые явно учитывают этичное поведение в стрессовых условиях, наряду с улучшенным мониторингом внутренних сигналов модели. Без таких мер предосторожности сценарии, связанные с манипуляцией, нарушением правил или злоупотреблением, могут стать труднее предсказуемыми, особенно по мере того, как модели становятся более способными и автономными в реальных условиях.