«Мы привыкли бороться с атаками постфактум, анализируя уже остывшие следы. Но если вместо того, чтобы изучать прошлое, мы сможем предсказывать следующее действие злоумышленника за секунды до того, как он его совершит? В основе такого подхода лежит не магия, а старая, хорошо изученная математика, которая внезапно обретает новую жизнь в мире кибербезопасности» .
Марковские модели для прогнозирования поведения атакующих
Методы обнаружения угроз в ИТ-системах исторически строились на анализе событий, которые уже произошли. Сигнатуры известных атак, правила корреляции событий, эвристики – всё это работает с данными из прошлого, чтобы среагировать на угрозу в настоящем. Прогнозирование следующего шага злоумышленника оставалось уделом аналитиков, их интуиции и накопленного опыта. Однако в последние годы в арсенале исследователей безопасности появились математические подходы, позволяющие формализовать этот процесс. Одним из таких инструментов являются марковские модели.
Идея использовать марковские модели не нова – они десятилетиями применяются в лингвистике для предсказания следующего слова, в финансах для анализа цен, в биологии для моделирования цепочек ДНК. Их суть заключается в том, что будущее состояние системы зависит только от её текущего состояния, а не от всей предыстории. Этот принцип, называемый «марковским свойством» или отсутствием памяти, парадоксальным образом хорошо описывает и поведение атакующего в ходе кибератаки. Злоумышленник, достигнув определённой точки в системе, выбирает следующий шаг, исходя из текущих возможностей (найденных уязвимостей, уровня доступа, видимой сети), а не из последовательности всех своих действий за последний месяц.
Как работает марковская модель в кибербезопасности
Основой для построения модели служат последовательности действий атакующих, наблюдаемые в реальных инцидентах или смоделированные в рамках тестов на проникновение. Эти последовательности, часто называемые kill chain или цепочками атак, детализируются до уровня отдельных атомарных шагов: сканирование порта, эксплуатация уязвимости, выполнение произвольной команды, установка backdoor, повышение привилегий, перемещение по сети.
Каждый такой шаг становится состоянием в марковской модели. Переходы между состояниями – это возможные следующие действия атакующего из данной точки. Вероятности этих переходов вычисляются на основе исторических данных: как часто из состояния «эксплуатация уязвимости в веб-приложении» атакующие переходили к «доступу к файловой системе», а как часто – к «инъекции в базу данных». Ключевая аналитическая задача здесь – не просто задокументировать состояния, а корректно определить их гранулярность. Слишком абстрактные состояния (например, «проникновение») бесполезны для прогноза. Слишком детальные (например, «отправлен HTTP-запрос на порт 443 с определённым заголовком User-Agent») приводят к необучаемой модели с миллионами уникальных, редко встречающихся состояний.
Построенная и обученная на данных модель позволяет решать две основные задачи:
- Оценка риска текущего состояния. Если система находится в состоянии, из которого существует высокая вероятность (близкая к 1) перехода к критичным состояниям вроде «полный контроль над контроллером домена», текущий инцидент автоматически получает максимальный приоритет для реагирования.
- Прогноз следующего вероятного шага. Исходя из наблюдаемой цепочки событий, модель может предсказать, с какими вероятностями атакующий выполнит те или иные действия далее. Это позволяет упреждающе настраивать правила мониторинга на конкретные системы или блокировать потенциальные векторы атаки.
От теории к практике: задачи и ограничения
Современные реализации марковских моделей в SOC (Security Operations Center) и системах класса EDR/XDR сталкиваются с рядом практических сложностей.
Проблема обучающих данных. Для построения качественной модели нужны обширные и качественные данные – журналы реальных успешных атак, желательно разного типа и направленности. Такие данные либо закрыты, либо их сбор требует огромного времени. Частичным решением становится использование симуляций атак, например, с помощью фреймворков вроде MITRE ATT&CK, но такая модель может оказаться менее репрезентативной для уникальных инфраструктур.
Динамичность векторов атак. Вероятности переходов, выученные на атаках прошлого года, могут оказаться нерелевантными для новых техник. Модель требует постоянного переобучения и адаптации.
Шум и детектирование обходных манёвров. Реальные системы генерируют огромное количество легитимных событий, которые могут быть ошибочно интерпретированы как часть атаки. Кроме того, опытный атакующий, зная о системах обнаружения, может намеренно выполнять неочевидные, «маловероятные» с точки зрения модели действия, чтобы остаться незамеченным.
Несмотря на эти сложности, подход демонстрирует эффективность, особенно при использовании в составе гибридных систем. Марковская модель не заменяет собой сигнатурные или поведенческие анализаторы, а дополняет их, добавляя в систему аналитический слой, способный оценивать ситуацию в динамике.
Марковские цепи и скрытые марковские модели (HMM) в детектировании атак
Простые марковские цепи работают с наблюдаемыми состояниями. Однако в инфосистемах мы часто видим не само состояние атакующего, а лишь его косвенные признаки (артефакты) в логах: неудачные попытки входа, изменения в реестре, сетевые соединения на нестандартные порты.
Здесь на помощь приходят скрытые марковские модели (Hidden Markov Models, HMM). В HMM предполагается, что существует некоторая скрытая, ненаблюдаемая напрямую последовательность состояний (истинных намерений и действий атакующего), которая порождает наблюдаемую последовательность событий в логах. Задача модели – по цепочке наблюдаемых событий с максимальной вероятностью восстановить эту скрытую цепочку состояний. Например, наблюдаемая последовательность «много SYN-пакетов на разные порты» → «установленное сетевое соединение на порт 445» → «успешная аутентификация по Kerberos» может с высокой вероятностью указывать на скрытую цепочку состояний «активное сканирование сети» → «доступ к уязвимой службе SMB» → «перебор или использование украденных учётных данных для движения по сети».
Использование HMM позволяет системам детектирования работать с более высокоуровневыми понятиями, отсеивая шум и объединяя разрозненные низкоуровневые события в единую логическую цепочку, которую уже можно анализировать и прогнозировать.
Встраивание в регуляторные требования и российский контекст
Внедрение прогнозных аналитических систем, основанных на марковских моделях, напрямую пересекается с рядом требований регуляторов.
- Требования к непрерывному мониторинту (152-ФЗ, ПКЗ). Законы обязывают операторов обеспечивать безопасность персональных данных, что включает постоянный контроль. Модель, прогнозирующая развитие инцидента, является инструментом проактивного контроля, а не просто регистрации событий.
- Современные СОВ (системы обнаружения вторжений). ФСТЭК России в своих руководящих документах и требованиях к защите информации всё чаще говорит о необходимости систем, способных к выявлению сложных целевых атак. Традиционные сигнатурные СОВ не справляются с этой задачей в полной мере. Прогнозные модели, анализирующие последовательности действий, являются шагом к созданию систем нового поколения, соответствующих этим ожиданиям.
- Обработка больших данных. Работа с марковскими моделями требует обработки огромных объёмов событий безопасности в реальном времени. Это стимулирует развитие инфраструктуры SIEM-систем, их интеграцию с системами Big Data и машинного обучения, что также соответствует общему тренду на цифровизацию и автоматизацию процессов безопасности.
Важный аспект для российских организаций – импортонезависимость и использование отечественных разработок. Алгоритмы, лежащие в основе марковских моделей, являются математическим знанием и не зависят от конкретных зарубежных платформ. Их реализация может быть успешно выполнена в рамках российских SIEM- и EDR-решений, что делает технологию перспективной с точки зрения суверенитета в сфере кибербезопасности.
Будущее и развитие подхода
Марковские модели – не панацея, а мощный аналитический инструмент, чья эффективность раскрывается в комбинации с другими методами. Будущее лежит в создании гибридных систем, где:
- Марковские модели обеспечивают прогнозное планирование и оценку риска развития атаки.
- Глубокое обучение (нейронные сети) обрабатывает неструктурированные данные и выявляет сложные аномалии.
- Экспертные правила и сигнатуры гарантируют быстрое реагирование на известные угрозы.
Кроме того, актуальным направлением становится разработка адаптивных моделей, способных обучаться на данных конкретной организации, учитывая её уникальную архитектуру, бизнес-процессы и профиль нормальной активности. Это позволит снизить количество ложных срабатываний и повысить точность прогнозов.
Практическое применение марковских моделей сегодня – это уже не академические исследования, а функционирующие модули в продвинутых коммерческих и корпоративных системах защиты. Их внедрение требует квалификации в области data science и аналитики безопасности, но в долгосрочной перспективе именно такие технологии позволяют перейти от реактивной к упреждающей безопасности, сокращая время на обнаружение и реагирование на сложные кибератаки.