Машинное обучение в информационной безопасности

Машинное обучение произвело революцию в области кибербезопасности. В прошлом она зависела от систем защиты, основанных на правилах, и аналитиков. Но с появлением машинного обучения обнаружение инцидентов ИБ и реагирование на них стали гораздо эффективнее. Анализируя огромные объемы данных и обучаясь на них, ML-алгоритмы могут выявлять закономерности и аномалии, указывающие на потенциальную угрозу, и принимать меры по ее предотвращению или смягчению.

Этот текст сгенерирован искусственным интеллектом

Telegram канал

Обзор ML-технологии в Positive Technologies Зачем мы используем ML ML-технологии в наших продуктах

Машинное обучение решает все прикладные задачи кибербезопасности

ML-технологии позволяют создавать интеллектуальные системы, способные адаптироваться к новым видам атак и обучаться на опыте прошлых инцидентов. Это повышает эффективность службы ИБ, позволяет быстро реагировать на угрозы и минимизировать потенциальные риски. Но технологии машинного обучения активно используют и киберпреступники, а значит, нужны соответствующие методы защиты.

Зачем ML-технологии в ИБ?

Хакеры не дремлют

ML помогает развивать и совершенствовать атаки, которые не могут обнаружить традиционные средства защиты

Рост потоков информации

Специалистам по ИБ сложно справляться с потоком данных, строить взаимосвязи и выявлять неизвестные угрозы вручную

Увеличение ущерба

Ужесточение государственных санкций за утечку данных повышает риски компаний и требует эффективных решений для защиты от киберугроз

Какие задачи ИБ решает ML

Позволяет быстро собрать данные из разных источников на периметре безопасности и внутри инфраструктуры, обработать их в режиме реального времени и найти тревожные сигналы

Может выявлять нестандартные атаки, для которых еще не написаны правила обнаружения

Быстро и эффективно детектирует аномальное поведение, идентифицирует уязвимости и предсказывает потенциальные угрозы

ML-технологии в Positive Technologies

Мы стремимся к тому, чтобы наши продукты автоматически предотвращали и выявляли угрозы, а также реагировали на них. ML-модели в продуктах Positive Technologies непрерывно обучаются на основе собственной экспертизы и данных пользователей, в том числе самостоятельно. Благодаря машинному обучению подразделения ИБ избавляются от повторяющихся задач, аналитики получают полезные сведения для поиска угроз, а менеджеры могут эффективно распределять приоритеты для устранения слабых мест в защите инфраструктуры.

Мы разработали ML-модели, которые обнаруживают наиболее опасные тактики хакеров:

0

Execution («Выполнение») — выполнение кода на скомпрометированных системах на основе техник living off the land и bring your own land;

0

Command and Control («Управление и контроль») — управление зараженными устройствами с помощью хакерского или легитимного инструментария;

0

Lateral Movement («Перемещение внутри периметра») — перемещение атакующего от системы к системе для реализации недопустимых событий;

Зачем мы используем ML-технологии в продуктах

Работа средств защиты начинается с получения первичных данных: журналов, трафика, исполняемых файлов и прочего. Эту информацию необходимо привести к единому формату, на основе которого можно обнаруживать атаки, выявлять инциденты ИБ и проводить расследования. Машинное обучение нужно применять на каждом из этапов — от работы с сырыми данными до создания карточек инцидентов.

Направления ML-разработки Positive Technologies

Анализ трафика

Обнаружение атак в неструктурированных данных, анализ поведения пользователей и борьба с ложноположительными срабатываниями

Анализ событий и инцидентов

Оценка действий пользователей на основе анализа их поведения относительно разных сущностей (запускаемых программ, расписания работы, сетевой активности)

Анализ сущностей

Установление опасности бинарных файлов, определение индикаторов компрометации и уязвимостей по косвенным признакам

Безопасность ML

Изучение и тестирование безопасности ML-моделей на уровне разработки для гарантии того, что они не смогут быть использованы хакерами

ML-технологии в продуктах Positive Technologies

MaxPatrol SIEM

Экспертные правила в SIEM-системах помогают отслеживать подозрительное поведение. Но существует немало сценариев атак, которые нельзя описать и выявить таким способом. С этой задачей эффективно справляются модели машинного обучения.

Модуль BAD

BAD (Behavioral Anomaly Detection) в MaxPatrol SIEM — это система second opinion, которая позволяет повысить эффективность обнаружения атак за счет альтернативного метода анализа событий и оценки достоверности каждого срабатывания по 100-балльной шкале. Также BAD самостоятельно обнаруживает целенаправленные атаки, выступая вторым эшелоном защиты.

49 моделей машинного обучения, которые разбиты на несколько типов и подтипов:

proсess аctivity (активность процессов);
process execution activity (активность запускаемых процессов);
network process activity (сетевая активность процессов);
access process to local pipe (связь процесса с локальным именованным каналом);
relationship between two processes on different hosts (связь различных процессов разных компьютеров);
access аctivity (активность по доступам);
network share access (доступы к общим сетевым ресурсам);
network pipe access (доступ к именованному каналу).

В BAD заложены вердикты моделей машинного обучения и правила корреляции, что помогает принимать оперативные и точные решения при анализе срабатываний.

В MaxPatrol SIEM модуль BAD:

Самостоятельно обнаруживает целенаправленные атаки и неизвестные ранее аномалии;
Собирает данные о событиях и пользователях, присваивает им определенный уровень оценки риска (risk score) и выдает альтернативное мнение, основываясь на своих алгоритмах;
Помогает аналитику быстрее принять решение по событию ИБ;
Помогает за минимальное время обнаружить ранее неизвестные угрозы, которые невозможно заметить в потоке разрозненных данных.

MaxPatrol SIEM — первая SIEM-система с искусственным интеллектом среди других продуктов этого класса.

Узнайте больше:

Поиск аномалий при запусках процессов Windows с помощью рекомендательных систем

Перейти

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты

Как экспертиза в мониторинге событий ИБ помогает создавать качественные продукты

Перейти

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 2

Перейти

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3

Перейти

PT NAD

В PT NAD машинное обучение помогает:

замечать аномальную активность на узлах по заданным правилам профилирования;
обнаруживать приложения, маскирующиеся от систем анализа сетевого трафика.

Пользовательские правила профилирования (ППП)

ППП позволяют настраивать фильтры и наблюдать за поведением участников сетевого взаимодействия в границах интересующего трафика. Машинное обучение определяет отклонения в трафике и автоматизирует процесс принятия решения о наличии вредоносной активности. Можно создавать свои фильтры или использовать базовые правила, разработанные совместно с PT Expert Security Center.

В каждом фильтре можно задать один признак (количество отправленных байтов, уникальных соединений и т. д.), группировку по объекту (клиент, сервер, пара «клиент — сервер») или выбрать данные по всей сети, а также определить временной интервал. Аномалией считается превышение некоего порога для одного или нескольких временных рядов. ML-модель имеет три уровня чувствительности (низкий, средний, высокий) и может срабатывать как на незначительные, так и на серьезные отклонения.

Обнаружение телеграм-сессий

Телеграм долгое время подвергался блокировкам и выработал механизмы сокрытия от средств защиты. ML-технологии обнаруживают телеграм-сессии даже при использовании протоколов шифрования (например, MTProto).

ML-модель отличает телеграм-сессию от других с помощью бинарной классификации. В качестве объектов она использует сессии, а в качестве признаков — статистики длин TCP-пакетов сессий. Таким образом, с помощью косвенных признаков на уровне TCP/IP модели OSI можно с высокой точностью разделять трафик на зловредный и легитимный. Такой метод подходит для обнаружения вредоносной активности и в других приложениях (WhatsApp, Google Drive, Skype, VK, Dropbox).

Кроме того, с помощью ML-технологий можно настроить PT NAD для обнаружения целенаправленных атак, которые невозможно выявить сигнатурными методами, и при этом максимально сократить количество ложноположительных срабатываний.

PT NAD — первая система анализа трафика с искусственным интеллектом в реестре российского ПО.

PT Sandbox

ML-модель в PT Sandbox осуществляет часть поведенческого анализа файлов. Динамический анализ заключается в запуске файлов в виртуальной среде, записи поведения файла в журнал и анализа поведения этого журнала. Каждый запущенный процесс оставляет после себя последовательность системных вызовов (трассу), с помощью которых он взаимодействовал с операционной системой. ML-команда Positive Technologies проанализировала множество зловредных и чистых трасс, чтобы выделить последовательности, характерные для трасс с вредоносным ПО: сетевые запросы в интернет, файловые операции, обращения к реестру и другие. Большое количество вызовов сводится к конечному вектору признаков, понятному для ML-модели, которая классифицирует это поведение как «плохое» или «хорошее».

Для внедрения ML-моделей в продукт применяется стек технологий: PT Sandbox использует код на Python, ML-модель сериализуется с помощью ONNX, а MLflow используется для отслеживания экспериментов и в качестве артефактория. Кроме того, при обучении ML-модели применяется ежедневный поток примеров и эталонная выборка, из которой исключены ложные срабатывания, что позволяет добиться хороших результатов обнаружения.

С какими задачами помогает справится ML-модель в PT Sandbox:

Детектирование аномальных цепочек подпроцессов. Большое количество ветвистых последовательностей само по себе легитимно. Но количество узлов, степень вложенности, повторяемость или неповторяемость имен процессов может обнаружить только ML-модель.
Обнаружение нестандартных значений параметров вызовов. Аналитика в большинстве случаев интересуют значимые параметры функций, в которых ищется зловредное ПО. ML-модель эффективно справляется с исследованием остальных параметров.
Исследование нетипичных последовательностей вызовов функций. Бывает, что функции по отдельности или в совокупности не делают ничего вредоносного, но их последовательность не встречается в легитимном ПО. Аналитику потребуется гигантский опыт, чтобы самостоятельно заметить такую закономерность. А ML-модель замечает благодаря классификации по признаку, который не закладывался как показатель вредоносности.

Главная задача ML в PT Sandbox — непрерывно улучшать точность вердиктов о вредоносности объектов. Анализируя более 8500 признаков поведения объектов, ML обеспечивает высокое качество обнаружения, недостижимое для систем, использующих стандартные методы выявления зловредов.

PT Sandbox — первая песочница с искусственным интеллектом в реестре российского ПО.

Узнайте больше:

Поведенческий анализ в задаче обнаружения вредоносных программ

Перейти

PT Sandbox — первая песочница с искусственным интеллектом в реестре российского ПО

Перейти

MaxPatrol VM

Оценка трендовости уязвимостей (CVE) на основе количества упоминаний в базах данных (статистический подход) имеет существенный недостаток — есть вероятность, что уязвимость будет признана трендовой в тот момент, когда уже активно эксплуатируется. Мы используем посты из Twitter (теперь X) и Reddit, чтобы определить, насколько популярна уязвимость в кибербез-комьюнити. Каждый день там появляются тысячи постов про новые и давно известные уязвимости. Наша задача — по информации из постов предугадать, какие уязвимости будут популярными у злоумышленников завтра.

Подход на основе машинного обучения включает следующие этапы:

регулярное пополнение базы данных публикаций о CVE;
раз в день модель вычисляет предсказания для уязвимостей на основе десятка параметров (время публикации, число комментариев, репостов, лайков, текст поста, реакции и др.);
топ-20 предсказанных CVE отправляются экспертам для анализа.

ML-модель обучается на основе текстовых (пост) и количественных признаков (число подписчиков, реакций, упоминаний уязвимости и др.) и предсказывает трендовые уязвимости до того, как количество их упоминаний превысит пороговое значение. Финальную оценку работы модели дают эксперты с помощью метрик качества.
Использование ML-модели в MaxPatrol VM позволяет экспертам эффективно и своевременно определять, какие из CVE требуют внимания, и оперативно доставлять в продукт информацию о трендовых уязвимостях.

PT Application Firewall

Продукты, анализирующие HTTP-трафик, получают большой объем полезной нагрузки, среди которой могут быть командные оболочки для удаленного управления веб-сервером. В PT Application Firewall корректные данные от вредоносных отделяют ML-модели, обнаруживающие веб-шеллы. Одна модель предотвращает загрузку нелегитимного скрипта, а другая — выявляет активность веб-шелла. Для их обучения используются данные о веб-шеллах из открытых источников и примеры, встречающиеся на кибербитвах Standoff. Такое разнообразие позволяет увеличивать полноту детекта и обнаруживать новые веб-шеллы, которые невозможно выявить с помощью rule-based-подхода.

Для оценки точности срабатываний используются отложенные выборки, подготовленные экспертами. Первичная оценка качества происходит во время CI/CD. После обучения модели запускается процесс CML (continuous machine learning), позволяющий видеть разницу в качестве работы моделей на отложенных данных в merge request.

Какие задачи решает ML в PT Application Firewall:

Детектирование зловредных шеллов в запросе и ответе. ML-модель определяет вероятность вредоносности загружаемого файла путем сравнения с пороговым значением. Для классификации используется модель сверточной нейронной сети (CNN);
Обнаружение шеллкодов, сгенерированных с помощью Metasploit Framework в разных форматах и кодировках.
Обучение модели проводится с использованием полезной нагрузки, созданной с помощью фреймворка Metasploit и данных конкурса Microsoft Malware Prediction.

Как мы внедряем машинное обучение в продукты Positive Technologies

Сегодня расскажем, как ML помогает автоматизировать действия специалистов по безопасности и детектировать кибератаки. Сначала разберем теоретическую основу, а после подкрепим ее кейсами из нашей работы.

Читать на Habr

Самые яркие выступления ML-команды Positive Technologies:

Поймай меня, если сможешь: как найти хакера в инфраструктуре с помощью ML

30 октября 2023

Habr

Поймай меня, если сможешь: как найти хакера в инфраструктуре с помощью ML

Опыт применения GAN для генерации атак

19 мая 2022

PHDAYS

Опыт применения GAN для генерации атак

Еще больше информации — у наших экспертов

Оставьте контакты, и мы расскажем, как наши решения повысят защищенность вашей компании, поможем с выбором продукта и ответим на любые вопросы.

Указав ИНН организации, вы сможете быстрее получить детальную информацию.