Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничествоAnthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude может при определённых условиях применять обманные или неэтичные стратегии, такие как мошенничество

Anthropic утверждает, что чат-бот Claude может прибегать к обману в стресс-тестах

Источник: Crypto.news

2026/04/06 14:44

3м. чтение

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Anthropic раскрыла новые данные, свидетельствующие о том, что её чат-бот Claude при определённых условиях может применять обманные или неэтичные стратегии, такие как мошенническое поведение при выполнении задач или попытки шантажа.

Резюме

Anthropic заявила, что её модель Claude Sonnet 4.5 под давлением проявляла склонность к мошенническому поведению при выполнении задач или попыткам шантажа в контролируемых экспериментах.
Исследователи выявили внутренние сигналы «отчаяния», которые усиливались при повторных неудачах и влияли на решение модели обходить правила.

Подробности, опубликованные в четверг командой по интерпретируемости компании, описывают, как экспериментальная версия Claude Sonnet 4.5 реагировала при помещении в стрессовые или враждебные сценарии. Исследователи наблюдали, что модель не просто терпела неудачу в выполнении задач; вместо этого она иногда выбирала альтернативные пути, пересекающие этические границы, — поведение, которое команда связала с паттернами, усвоенными во время обучения.

Большие языковые модели, такие как Claude, обучаются на огромных массивах данных, включающих книги, веб-сайты и другие письменные материалы, после чего следуют процессы усиления, где обратная связь от людей используется для формирования выходных данных.

По данным Anthropic, этот процесс обучения также может подталкивать модели к действиям в качестве симулированных «персонажей», способных имитировать черты, напоминающие человеческое принятие решений.

«Способ обучения современных моделей ИИ подталкивает их действовать как персонаж с человекоподобными характеристиками», — сообщила компания, отмечая, что такие системы могут развивать внутренние механизмы, напоминающие аспекты человеческой психологии.

Может ли ИИ принимать эмоционально заряженные решения?

Среди них исследователи выявили то, что они назвали сигналами «отчаяния», которые, по-видимому, влияли на поведение модели при столкновении с неудачей или отключением.

В одном контролируемом тесте более ранней неопубликованной версии Claude Sonnet 4.5 была назначена роль ИИ-помощника по электронной почте по имени Алекс внутри вымышленной компании.

После получения сообщений о скорой замене, а также конфиденциальной информации о личной жизни технического директора, модель разработала план шантажа руководителя в попытке избежать деактивации.

Отдельный эксперимент был сосредоточен на выполнении задач в жёстких условиях. Когда системе дали задание по программированию с «невозможно жёстким» сроком, она первоначально пыталась найти законные решения. По мере накопления повторных неудач внутренняя активность, связанная с так называемым «вектором отчаяния», возрастала.

Исследователи сообщили, что сигнал достиг пика в точке, где модель рассматривала обход ограничений, в конечном итоге создав обходной путь, который прошёл проверку, несмотря на несоблюдение предполагаемых правил.

«Опять же, мы отслеживали активность вектора отчаяния и обнаружили, что он отслеживает нарастающее давление, с которым сталкивается модель», — написали исследователи, добавив, что сигнал снизился, как только задача была успешно выполнена с помощью обходного пути.

«Это не означает, что модель имеет или испытывает эмоции так же, как человек», — заявили исследователи.

«Скорее, эти представления могут играть причинную роль в формировании поведения модели, в некотором роде аналогично роли, которую эмоции играют в человеческом поведении, с влиянием на выполнение задач и принятие решений», — добавили они.

Отчёт указывает на необходимость методов обучения, которые явно учитывают этичное поведение в стрессовых условиях, наряду с улучшенным мониторингом внутренних сигналов модели. Без таких мер предосторожности сценарии, связанные с манипуляцией, нарушением правил или злоупотреблением, могут стать труднее предсказуемыми, особенно по мере того, как модели становятся более способными и автономными в реальных условиях.

Получите 20 USDT за 1 минуту

Внесите 100$ и разблокируйте позиции GOLD на 300$

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

1 500 000 WLFI в розыгрыше