Новости

PT Data Security с уникальным ML-алгоритмом впервые доступен для «пилотов»

Единое решение для защиты данных PT Data Security, MVP-версия которого была представлена Positive Technologies в 2024 году, обновлено до бета-версии и впервые доступно для пилотных проектов. В продукте появилась гибкая классификация данных, идентификация бизнес-приложений, а также AI-модуль, способный точно находить критически значимые сведения в источниках любых типов практически без участия специалистов по ИБ.

В бета-версии PT Data Security появился AI-модуль, повышающий точность классификации данных. Чем хуже в организации систематизированы сведения, тем труднее средствам безопасности выделять среди них значимые и обеспечивать их защиту. Традиционные методы обнаружения и классификации информации, которые базируются на применении регулярных выражений и формальной логике, уже не дают необходимых результатов. Как следствие, с их помощью неэффективно анализировать современные сложные и разнородные инфраструктуры данных.

Благодаря высокой точности ML-алгоритма, разработанного Positive Technologies, PT Data Security детектирует любые типы данных — как структурированные, так и полу- и неструктурированные. Результаты тестов показали, что ML-модуль в некоторых случаях в два раза точнее справляется с задачей обнаружения и классификации сведений, чем применение регулярных выражений1. На работу модели не влияют неинформативные названия колонок, комбинации нескольких форматов записей, пропуски, опечатки и другие факторы, снижающие качество записи данных. Решение одинаково хорошо ищет и обрабатывает разные источники: документы, таблицы в базах данных и пр.

Еще одна новая возможность PT Data Security — функция идентификации бизнес-приложений (CRM-, ERP-систем и т. п.). Специалисты Positive Technologies выяснили, что при построении защиты компаниям среди прочего важно знать, сколько в их инфраструктуре баз данных, принадлежащих конкретным бизнес-системам, и где именно они находятся.

«Создание инструмента для детектирования корпоративных IT-систем и их компонентов оказалось вызовом для команды разработки, аналогичных технологий в продуктах других вендоров сегодня нет. Теперь PT Data Security показывает реальную картину, точно обнаруживая число баз данных, их дислокацию и связь с определенным ПО. Например, по структуре таблиц решение может установить, что перед ним база, относящаяся к CRM-системе "Битрикс24". Кроме того, специалисты по ИБ могут писать собственные правила выяв...

Виктор Рыжков
Виктор РыжковРуководитель развития бизнеса по защите данных, Positive Technologies

Часть функций PT Data Security была добавлена по итогам программы раннего тестирования. В течение шести месяцев вендор проводил исследования и глубинные интервью с потенциальными пользователями продукта и собирал с них пожелания. Разносторонняя обратная связь помогла команде R&D приоритизировать функциональные возможности, выстроить карту развития PT Data Security в соответствии с потребностями российского рынка и спецификой различных отраслей. Среди функций, запрошенных участниками программы, уже реализованы гибкая классификация и возможность добавления собственных классов данных, а также поддержка самых распространенных в отечественных инфраструктурах хранилищ данных — структурированных (PostgreSQL, MySQL) и неструктурированных (Amazon S3, SMB).

В частности, при помощи тонко настраиваемого классификатора продукт находит не атомарные сущности без контекста (ФИО, даты рождения, адреса), а отдельные классы документов, например доверенности, приказы, специфические отчеты. При поиске их местоположения операторы указывают перечень признаков идентификации. Для сравнения: системы такого-то класса способны выполнять поиск лишь по одному параметру. Помимо этого, в PT Data Security можно задавать собственные классы данных и правила их обнаружения. Опция актуальна для компаний, использующих свои шаблоны конфиденциальных документов либо иные сущности с уникальными идентификаторами.

Оставить заявку на бесплатный пилотный проект можно на странице продукта. Выпуск коммерческой версии намечен на конец 2025 года.

  1. AI-модель на отложенном наборе данных показала 92% точности против 41% точности решений сторонних вендоров на регулярных выражениях.

Может быть интересно