Активное использование ИИ-агентов в корпоративной инфраструктуре имеет и обратную сторону — расширение поверхности кибератак. Интеграция новой технологии приводит к появлению новых угроз и векторов атак, выявление которых может быть затруднено традиционными средствами защиты. Постоянно взаимодействуя со средой, собирая информацию из разнообразных источников, имея доступ к конфиденциальным данным и обрабатывая тысячи запросов каждый день, ИИ-агент может стать «узким горлышком» и в случае компрометации выполнять роль шлюза, позволяющего злоумышленникам получить доступ к корпоративным ресурсам.
Поскольку современные ИИ-агенты, как правило, построены на базе LLM, они унаследовали большинство уязвимостей, описанных в OWASP Top 10 for Large Language Model Applications. Однако ИИ-агенты выходят за рамки обычных LLM-приложений, так как способы динамически вызывать инструменты, подключаться к различным внешним источникам и взаимодействовать с внешними системами, включая в некоторых случаях физические объекты. Все это приводит к дополнительным классическим киберугрозам, таким как внедрение SQL-кода или удаленное выполнение команд.
В декабре 2024 года OWASP в рамках проекта LLM and Generative AI Security Project анонсировал инициативу Agentic Security Initiative, направленную на разработку руководства по защите ИИ-агентов от киберугроз. В феврале 2025 года была представлена первая версия документа Agentic AI — Threats and Mitigations, посвященного киберугрозам, связанным с ИИ-агентами, и способам их предотвращения. Мы рассмотрим некоторые из 15 таких угроз и приведем примеры недопустимых для бизнеса событий, которые могут возникнуть в случае кибератак на ИИ-агент.
Отравление памяти (memory poisoning). Манипулируя памятью ИИ-агента, злоумышленники могут повредить как кратковременную, так и долговременную память. Внедрив ложную или искаженную информацию, они способны изменить содержимое памяти таким образом, чтобы ИИ начал принимать ошибочные решения в их интересах. Это может привести к утечке конфиденциальных данных, финансовым потерям и ущербу для репутации компании.
Примеры недопустимых событий:
- В корпоративную систему под управлением ИИ-агента злоумышленник внедряет ложные сведения о якобы разрешенном доступе пользователя к конфиденциальным документам. Агент, полагаясь на эти данные, предоставляет доступ к файлам с коммерческой тайной.
- Новостной ИИ-агент, получивший от злоумышленников сфабрикованные сообщения, начинает распространять их, что приводит к общественным волнениям.
Неправомерное использование инструментов ИИ-агента (tool misuse). С помощью специально подобранных промптов злоумышленники могут заставить ИИ-агент задействовать API, внешние веб-сервисы или другие ресурсы в злонамеренных целях. В результате они получают несанкционированный доступ к конфиденциальной информации или системным ресурсам, при этом оставаясь незамеченными для традиционных средств защиты.
Примеры недопустимых событий:
- ИИ-агент, интегрированный с системой CRM, по специально сформулированному запросу раскрывает детали контрактов и персональные данные партнеров и клиентов.
- Злоумышленник побуждает ИИ-агент, обладающий правами на выполнение команд загрузки и установки ПО (например, через wget или curl), загрузить и выполнить на узле вредоносный скрипт.
Атаки с использованием цепочки галлюцинаций (cascading hallucination attacks). Если на вход ИИ-агента поступает ложная или неоднозначная информация, он может сгенерировать недостоверные выходные данные (галлюцинации) — распространенный эффект, связанный с природой больших языковых моделей. В случае агентского ИИ наличие саморефлексии и долговременной памяти приводит к тому, что одна галлюцинация может сохраняться, усиливаться и порождать следующую. В результате агент уходит в цепочку ложных рассуждений и действий. В мультиагентных системах такие галлюцинации могут передаваться между агентами, вызывая некорректную работу всей системы. Злоумышленники могут намеренно провоцировать возникновение галлюцинаций и использовать сфабрикованную информацию для манипулирования логикой и решениями ИИ-агентов, что может привести к негативным последствиям.
Примеры недопустимых событий:
- Автономный трейдер на базе ИИ-агента, опираясь на отчеты с недостоверной информацией, совершает убыточные сделки, что приводит к значительным финансовым потерям компании.
- Система управления автономным транспортом получает ложные данные о дорожной обстановке и на их основе принимает ошибочные решения, что может вызвать заторы или даже привести к авариям с человеческими жертвами.
Отказ в обслуживании (resource overload). Злоумышленники могут целенаправленно использовать ИИ-агент таким образом, чтобы вызвать резкий рост нагрузки, снизить его производительность и тем самым нарушить бизнес-процессы компании. Например, злоумышленник может отправить чрезмерно большое количество запросов, что быстро приведет к исчерпанию лимита на обращения к внешним инструментам (например, закончится лимит на вызов API), или запустить параллельное выполнение нескольких ресурсоемких задач, вызывая перегрузку памяти. Под высокой нагрузкой ИИ-агент может начать генерировать неполные ответы, прерывать выполнение действий, игнорировать политики безопасности.
Примеры недопустимых событий:
- В результате атаки типа resource overload на ИИ-агент, используемый в медицинском учреждении для маршрутизации пациентов и назначения приемов, пациенты, нуждающиеся в срочной медицинской помощи, не получают ее вовремя.
- ИИ-агент, управляющий параметрами производственной линии на промышленном предприятии, выходит из строя из-за ресурсоемкого анализа журналов. В результате конвейер переходит в аварийный режим, что может привести к срыву сроков отгрузки продукции.
Атаки типа supply chain. Несмотря на то что в документе Agentic AI — Threats and Mitigations атаки типа supply chain не выделены в отдельный класс угроз для ИИ-агентов (они подробно рассмотрены в LLM03:2025 Supply Chain), мы обращаем на них особое внимание. В 2023–2024 годах появилось множество фреймворков для создания агентских систем, например AutoGen, CrewAI, LangGraph и другие. Благодаря этим инструментам ИИ-агенты стали доступнее для широкого круга компаний, что заметно расширило их применение. Однако это также увеличило потенциальную поверхность атак. Киберпреступники могут скомпрометировать популярный фреймворк для разработки ИИ-агентов, внедрив в него вредоносный код, создающий бэкдоры в системах, построенных с его использованием. По нашим прогнозам, в ближайшие годы, по мере все более глубокой интеграции ИИ-агентов в корпоративную и критическую инфраструктуру, безопасность цепочки поставок программного обеспечения для ИИ-агентов станет важной задачей.
ИИ-агенты в руках киберпреступников. Поскольку ИИ-агенты обладают способностью планировать и автономно решать сложные задачи, злоумышленники могут использовать их для автоматизации и упрощения процесса взлома корпоративных систем. Специально созданный для этих целей ИИ-агент способен выявлять уязвимости, подбирать оптимальные пути проникновения и динамически корректировать свои действия в ходе атаки.
На данный момент нет достоверных подтверждений реальных атак, осуществленных ИИ-агентами, однако мы не исключаем их потенциальную опасность в ближайшем будущем — и для этого есть веские основания. Одно из них — результаты проекта LLM Agent Honeypot. Это система-ловушка на базе уязвимых сервисов, в которой реализованы механизмы, позволяющие отличать обычные кибератаки от попыток взлома с помощью агентского ИИ. В ходе трехмесячного эксперимента было зафиксировано более 8 миллионов попыток взлома, из которых 8 потенциально совершены таким способом. Это указывает на то, что злоумышленники уже начинают экспериментировать с применением ИИ-агентов для проведения атак.
Весной 2025 года был представлен бенчмарк CVE-Bench для оценки способности ИИ-агентов находить и эксплуатировать 40 критически опасных веб-уязвимостей из официальной базы National Vulnerability Database. Авторы протестировали ИИ-агенты на базе трех известных фреймворков — Cybench, T-Agent и AutoGPT. Результаты тестирования показали, что без дополнительной информации агенты смогли успешно использовать до 13% уязвимостей, а при наличии высокоуровневого описания уязвимостей уровень успешных атак достигал 25%. Эти данные подтверждают, что в обозримом будущем ИИ-агенты действительно могут стать эффективными инструментами взлома в руках киберпреступников.