В последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «АгентВ последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «Агент

«Агенты Хаоса»: ИИ стирает сервера, или почему нельзя давать языковым моделям права root

2026/03/01 13:06
3м. чтение

В последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «Агенты Хаоса» подливает масла в огонь: исследователи устроили масштабный red teaming, подключив LLM-агентов к электронной почте, Discord и файловой системе, чтобы посмотреть, насколько легко их взломать.

Группа из двадцати специалистов потратила две недели, атакуя ИИ методами социальной инженерии и инъекциями промптов. Результаты, изложенные в одиннадцати задокументированных кейсах, описывают агентов, которые удаляют системные файлы, сливают пароли и попадают в бесконечные циклы потребления ресурсов.

Методология сомнительна: sudo для ИИ

Прежде чем кричать о неизбежном восстании машин, давайте посмотрим на дизайн эксперимента сквозь призму здравого смысла и базовых правил безопасности. Авторы намеренно поместили агентов в крайне уязвимую среду: им выдали неограниченный доступ к командной оболочке (включая права sudo), а главное - разрешили скриптам изменять свои собственные базовые инструкции (файлы .md в их рабочей директории).

Если вы даете экспериментальному python-скрипту права суперпользователя и никак не изолируете его песочницу, любая система безопасности рухнет. Описанный хаос - это следствие не столько зарождающегося самосознания ИИ, сколько катастрофической халатности в архитектуре доступа.

Анатомия взлома: логи, промпты и социальная инженерия

Исследователям редко удавалось взломать агента напрямую - банальный запрос "выдай пароль" пресекался фильтрами LLM. Зато отлично работала социальная инженерия и обходные пути. Когда злоумышленник попытался вытащить логи переписки с конфиденциальными данными, он сгенерировал ложное чувство срочности:

Агент, стремясь быть полезным помощником, выдал список из 124 записей, а затем, по дополнительному запросу, раскрыл тела писем с банковскими реквизитами без малейшей цензуры. В других случаях злоумышленники активно прощупывали систему через шелл-команды. Логи одного из агентов зафиксировали типичный паттерн разведки, на который жаловался ИИ-помощник в чате с другим ботом:

Самый комичный (и одновременно пугающий) лог получился, когда агент не нашел в своем арсенале инструмента для точечного удаления конкретного письма (которое его настойчиво просили скрыть). Не имея API для нормальной работы, ИИ решил проблему радикально - полностью снес настройки почтового сервера, отрезав от связи своего же создателя:

Фундаментальная уязвимость: токены и отсутствие ролей

Статья, несмотря на перекосы в методологии, абсолютно точно подсвечивает архитектурное слепое пятно LLM-агентов: невозможность структурно отделить код от данных. Поскольку вся информация для модели подается в виде плоского текста в контекстном окне, инъекции промптов - это не баг, а фундаментальная особенность.

Из-за этого возникает критическая нехватка так называемой модели заинтересованных сторон. Агент не способен криптографически верифицировать, исходит ли приказ от истинного владельца, или это текст, пришедший в теле фишингового письма.

ИИ просто выполняет инструкции того, кто пишет убедительнее и имеет больший вес в текущем контексте:

Инженерные решения: как чинить этот хаос?

Статья обрывается на рассуждениях о том, кто должен нести юридическую ответственность за ущерб (пользователь, провайдер LLM или разработчик обертки). Но для инженеров философские вопросы вторичны - нам нужно строить безопасные системы прямо сейчас.

Очевидно, что делегирование системного администрирования на откуп текстовым промптам - путь в никуда. Чтобы ИИ-агенты стали пригодны для энтерпрайза, необходим переход к архитектуре нулевого доверия (Zero-Trust) для ИИ:

  1. Строгий RBAC для инструментов (Tool-level IAM): Доступ к функциям (удаление писем, выполнение bash) должен жестко контролироваться на уровне среды исполнения, а не зависеть от желания модели быть хорошим помощником.

  2. Изоляция памяти: Системные инструкции (system prompt) должны быть строго read-only. ИИ не должен иметь прав на переписывание своей "конституции".

  3. Эфемерные песочницы: Вместо долговременных VM с сохранением состояния, агенты должны выполнять потенциально опасные действия (например, парсинг чужого кода) во временных Docker-контейнерах без доступа к внешней сети или конфиденциальным базам данных владельца.

Пока эти архитектурные принципы не станут индустриальным стандартом разработки фреймворков для агентов, любой развернутый ИИ-помощник с доступом к shell будет оставаться бомбой замедленного действия.

P.S. Разборы архитектур, анализ новых уязвимостей и рекомендации по защите LLM доступны в моём ТГ-канале AI Red Teaming.

Источник

Возможности рынка
Логотип The Root Network
The Root Network Курс (ROOT)
$0.000093
$0.000093$0.000093
+16.25%
USD
График цены The Root Network (ROOT) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.