ML-технологии позволяют создавать интеллектуальные системы, способные адаптироваться к новым видам атак и обучаться на опыте прошлых инцидентов. Это повышает эффективность службы ИБ, позволяет быстро реагировать на угрозы и минимизировать потенциальные риски. Но технологии машинного обучения активно используют и киберпреступники, а значит, нужны соответствующие методы защиты.


Машинное обучение в информационной безопасности
Машинное обучение произвело революцию в области кибербезопасности. В прошлом она зависела от систем защиты, основанных на правилах, и аналитиков. Но с появлением машинного обучения обнаружение инцидентов ИБ и реагирование на них стали гораздо эффективнее. Анализируя огромные объемы данных и обучаясь на них, ML-алгоритмы могут выявлять закономерности и аномалии, указывающие на потенциальную угрозу, и принимать меры по ее предотвращению или смягчению.
Этот текст сгенерирован искусственным интеллектом
Машинное обучение решает все прикладные задачи кибербезопасности
Зачем ML-технологии в ИБ?
Какие задачи ИБ решает ML
ML-технологии в Positive Technologies
Мы стремимся к тому, чтобы наши продукты автоматически предотвращали и выявляли угрозы, а также реагировали на них. ML-модели в продуктах Positive Technologies непрерывно обучаются на основе собственной экспертизы и данных пользователей, в том числе самостоятельно. Благодаря машинному обучению подразделения ИБ избавляются от повторяющихся задач, аналитики получают полезные сведения для поиска угроз, а менеджеры могут эффективно распределять приоритеты для устранения слабых мест в защите инфраструктуры.
Мы разработали ML-модели, которые обнаруживают наиболее опасные тактики хакеров:
Зачем мы используем ML-технологии в продуктах
Работа средств защиты начинается с получения первичных данных: журналов, трафика, исполняемых файлов и прочего. Эту информацию необходимо привести к единому формату, на основе которого можно обнаруживать атаки, выявлять инциденты ИБ и проводить расследования. Машинное обучение нужно применять на каждом из этапов — от работы с сырыми данными до создания карточек инцидентов.

Направления ML-разработки Positive Technologies
ML-технологии в продуктах Positive Technologies
MaxPatrol SIEM
Экспертные правила в SIEM-системах помогают отслеживать подозрительное поведение. Но существует немало сценариев атак, которые нельзя описать и выявить таким способом. С этой задачей эффективно справляются модели машинного обучения.
Модуль BAD
BAD (Behavioral Anomaly Detection) в MaxPatrol SIEM — это система second opinion, которая позволяет повысить эффективность обнаружения атак за счет альтернативного метода анализа событий и оценки достоверности каждого срабатывания по 100-балльной шкале. Также BAD самостоятельно обнаруживает целенаправленные атаки, выступая вторым эшелоном защиты.
49 моделей машинного обучения, которые разбиты на несколько типов и подтипов:
- proсess аctivity (активность процессов);
- process execution activity (активность запускаемых процессов);
- network process activity (сетевая активность процессов);
- access process to local pipe (связь процесса с локальным именованным каналом);
- relationship between two processes on different hosts (связь различных процессов разных компьютеров);
- access аctivity (активность по доступам);
- network share access (доступы к общим сетевым ресурсам);
- network pipe access (доступ к именованному каналу).
В BAD заложены вердикты моделей машинного обучения и правила корреляции, что помогает принимать оперативные и точные решения при анализе срабатываний.

В MaxPatrol SIEM модуль BAD:
- Самостоятельно обнаруживает целенаправленные атаки и неизвестные ранее аномалии;
- Собирает данные о событиях и пользователях, присваивает им определенный уровень оценки риска (risk score) и выдает альтернативное мнение, основываясь на своих алгоритмах;
- Помогает аналитику быстрее принять решение по событию ИБ;
- Помогает за минимальное время обнаружить ранее неизвестные угрозы, которые невозможно заметить в потоке разрозненных данных.
MaxPatrol SIEM — первая SIEM-система с искусственным интеллектом среди других продуктов этого класса.
Узнайте больше:
Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты
PT NAD
В PT NAD машинное обучение помогает:
- замечать аномальную активность на узлах по заданным правилам профилирования;
- обнаруживать приложения, маскирующиеся от систем анализа сетевого трафика.
Пользовательские правила профилирования (ППП)
ППП позволяют настраивать фильтры и наблюдать за поведением участников сетевого взаимодействия в границах интересующего трафика. Машинное обучение определяет отклонения в трафике и автоматизирует процесс принятия решения о наличии вредоносной активности. Можно создавать свои фильтры или использовать базовые правила, разработанные совместно с PT Expert Security Center.
В каждом фильтре можно задать один признак (количество отправленных байтов, уникальных соединений и т. д.), группировку по объекту (клиент, сервер, пара «клиент — сервер») или выбрать данные по всей сети, а также определить временной интервал. Аномалией считается превышение некоего порога для одного или нескольких временных рядов. ML-модель имеет три уровня чувствительности (низкий, средний, высокий) и может срабатывать как на незначительные, так и на серьезные отклонения.

Обнаружение телеграм-сессий
Телеграм долгое время подвергался блокировкам и выработал механизмы сокрытия от средств защиты. ML-технологии обнаруживают телеграм-сессии даже при использовании протоколов шифрования (например, MTProto).
ML-модель отличает телеграм-сессию от других с помощью бинарной классификации. В качестве объектов она использует сессии, а в качестве признаков — статистики длин TCP-пакетов сессий. Таким образом, с помощью косвенных признаков на уровне TCP/IP модели OSI можно с высокой точностью разделять трафик на зловредный и легитимный. Такой метод подходит для обнаружения вредоносной активности и в других приложениях (WhatsApp, Google Drive, Skype, VK, Dropbox).
Кроме того, с помощью ML-технологий можно настроить PT NAD для обнаружения целенаправленных атак, которые невозможно выявить сигнатурными методами, и при этом максимально сократить количество ложноположительных срабатываний.
PT NAD — первая система анализа трафика с искусственным интеллектом в реестре российского ПО.
PT Sandbox
ML-модель в PT Sandbox осуществляет часть поведенческого анализа файлов. Динамический анализ заключается в запуске файлов в виртуальной среде, записи поведения файла в журнал и анализа поведения этого журнала. Каждый запущенный процесс оставляет после себя последовательность системных вызовов (трассу), с помощью которых он взаимодействовал с операционной системой. ML-команда Positive Technologies проанализировала множество зловредных и чистых трасс, чтобы выделить последовательности, характерные для трасс с вредоносным ПО: сетевые запросы в интернет, файловые операции, обращения к реестру и другие. Большое количество вызовов сводится к конечному вектору признаков, понятному для ML-модели, которая классифицирует это поведение как «плохое» или «хорошее».
Для внедрения ML-моделей в продукт применяется стек технологий: PT Sandbox использует код на Python, ML-модель сериализуется с помощью ONNX, а MLflow используется для отслеживания экспериментов и в качестве артефактория. Кроме того, при обучении ML-модели применяется ежедневный поток примеров и эталонная выборка, из которой исключены ложные срабатывания, что позволяет добиться хороших результатов обнаружения.

С какими задачами помогает справится ML-модель в PT Sandbox:
- Детектирование аномальных цепочек подпроцессов. Большое количество ветвистых последовательностей само по себе легитимно. Но количество узлов, степень вложенности, повторяемость или неповторяемость имен процессов может обнаружить только ML-модель.
- Обнаружение нестандартных значений параметров вызовов. Аналитика в большинстве случаев интересуют значимые параметры функций, в которых ищется зловредное ПО. ML-модель эффективно справляется с исследованием остальных параметров.
- Исследование нетипичных последовательностей вызовов функций. Бывает, что функции по отдельности или в совокупности не делают ничего вредоносного, но их последовательность не встречается в легитимном ПО. Аналитику потребуется гигантский опыт, чтобы самостоятельно заметить такую закономерность. А ML-модель замечает благодаря классификации по признаку, который не закладывался как показатель вредоносности.
Главная задача ML в PT Sandbox — непрерывно улучшать точность вердиктов о вредоносности объектов. Анализируя более 8500 признаков поведения объектов, ML обеспечивает высокое качество обнаружения, недостижимое для систем, использующих стандартные методы выявления зловредов.
PT Sandbox — первая песочница с искусственным интеллектом в реестре российского ПО.
Узнайте больше:
MaxPatrol VM
Оценка трендовости уязвимостей (CVE) на основе количества упоминаний в базах данных (статистический подход) имеет существенный недостаток — есть вероятность, что уязвимость будет признана трендовой в тот момент, когда уже активно эксплуатируется. Мы используем посты из Twitter (теперь X) и Reddit, чтобы определить, насколько популярна уязвимость в кибербез-комьюнити. Каждый день там появляются тысячи постов про новые и давно известные уязвимости. Наша задача — по информации из постов предугадать, какие уязвимости будут популярными у злоумышленников завтра.
Подход на основе машинного обучения включает следующие этапы:
- регулярное пополнение базы данных публикаций о CVE;
- раз в день модель вычисляет предсказания для уязвимостей на основе десятка параметров (время публикации, число комментариев, репостов, лайков, текст поста, реакции и др.);
- топ-20 предсказанных CVE отправляются экспертам для анализа.
ML-модель обучается на основе текстовых (пост) и количественных признаков (число подписчиков, реакций, упоминаний уязвимости и др.) и предсказывает трендовые уязвимости до того, как количество их упоминаний превысит пороговое значение. Финальную оценку работы модели дают эксперты с помощью метрик качества.
Использование ML-модели в MaxPatrol VM позволяет экспертам эффективно и своевременно определять, какие из CVE требуют внимания, и оперативно доставлять в продукт информацию о трендовых уязвимостях.
PT Application Firewall
Продукты, анализирующие HTTP-трафик, получают большой объем полезной нагрузки, среди которой могут быть командные оболочки для удаленного управления веб-сервером. В PT Application Firewall корректные данные от вредоносных отделяют ML-модели, обнаруживающие веб-шеллы. Одна модель предотвращает загрузку нелегитимного скрипта, а другая — выявляет активность веб-шелла. Для их обучения используются данные о веб-шеллах из открытых источников и примеры, встречающиеся на кибербитвах Standoff. Такое разнообразие позволяет увеличивать полноту детекта и обнаруживать новые веб-шеллы, которые невозможно выявить с помощью rule-based-подхода.
Для оценки точности срабатываний используются отложенные выборки, подготовленные экспертами. Первичная оценка качества происходит во время CI/CD. После обучения модели запускается процесс CML (continuous machine learning), позволяющий видеть разницу в качестве работы моделей на отложенных данных в merge request.
Какие задачи решает ML в PT Application Firewall:
- Детектирование зловредных шеллов в запросе и ответе. ML-модель определяет вероятность вредоносности загружаемого файла путем сравнения с пороговым значением. Для классификации используется модель сверточной нейронной сети (CNN);
- Обнаружение шеллкодов, сгенерированных с помощью Metasploit Framework в разных форматах и кодировках.
- Обучение модели проводится с использованием полезной нагрузки, созданной с помощью фреймворка Metasploit и данных конкурса Microsoft Malware Prediction.
Самые яркие выступления ML-команды Positive Technologies:
Еще больше информации — у наших экспертов
Оставьте контакты, и мы расскажем, как наши решения повысят защищенность вашей компании, поможем с выбором продукта и ответим на любые вопросы.
Указав ИНН организации, вы сможете быстрее получить детальную информацию.