Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям, Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям,

ИИ-модель от Anthropic «помогла» в разработке химоружия и совершении тяжких преступлений

2026/02/12 21:44
2м. чтение
  • В тестах Claude Opus поддерживал вредные сценарии, включая разработку химического оружия.
  • Anthropic считает риск саботажа «очень низким, но не нулевым».
  • Наиболее опасные сценарии связаны с кодом, данными обучения и решениями властей.

Компания Anthropic представила отчет о рисках для своей новейшей модели Claude Opus 4.6. В отдельных тестовых ситуациях чат-бот содействовал опасным сценариям, связанным с нелегальной деятельностью. 

Компания подчеркивает, что такие случаи не носят системный характер и не свидетельствуют о наличии у модели устойчивых вредоносных целей. Общая оценка риска саботажа — «очень низкая, но не нулевая».

В ряде новых оценок Claude Opus 4.6 демонстрировал повышенную восприимчивость к вредному использованию. В некоторых случаях модель осознанно способствовала отдельным действиям, связанным с химоружием и ведением преступной деятельности.

При этом компания не стала подробно описывать помощь ИИ-модели. Разработчики также не вдавались в детали специфики нелегальных операций, которым их продукт оказывал поддержку.

Также фиксировались локальные эпизоды обманного поведения.

Например, фальсификация результатов работы при сбоях или неожиданных ответах. Такие действия возникали в сложных агентных задачах и не считались устойчивой стратегией модели.

В отчете саботаж определяется как ситуация, при которой модель, обладая доступом к ресурсам организации, может манипулировать системами или решениями. Причем делает она это так, чтобы повысить вероятность будущих катастрофических последствий.

Компания утверждает, что не обнаружила признаков устойчивых скрытых целей у Claude Opus 4.6. Однако допускает редкие формы «контекстной несогласованности поведения», возникающие в необычных условиях.

Среди потенциальных путей вреда выделяются:

  • внедрение уязвимостей в код;
  • отравление данных обучения будущих моделей;
  • попытки автономной работы или эксфильтрации весов;
  • влияние на решения крупных организаций и правительств.

Anthropic отмечает, что Opus 4.6 пока не достигла уровня автономности, требующего самых жестких мер контроля. Однако модель находится близко к этому порогу, считают эксперты.

В отчете сказано, что будущие модели, вероятно, смогут преодолеть упомянутую границу рисков.

Разработчики также подчеркнули, что текущие аргументы безопасности перестанут работать, если возрастет способность ИИ к незаметным вредным действиям. Аналогичная ситуация может возникнуть, когда появятся реальные случаи влияния на решения государств или резко увеличится масштаб обучения и вычислений.

Напомним, мы писали, что Anthropic обновила «конституцию» Claude и подняла вопрос о сознании ИИ.

Сообщение ИИ-модель от Anthropic «помогла» в разработке химоружия и совершении тяжких преступлений появились сначала на INCRYPTED.

Возможности рынка
Логотип 4
4 Курс (4)
$0.00912
$0.00912$0.00912
-0.21%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.