Прогнозирование атак с помощью марковских моделей

«Мы привыкли бороться с атаками постфактум, анализируя уже остывшие следы. Но если вместо того, чтобы изучать прошлое, мы сможем предсказывать следующее действие злоумышленника за секунды до того, как он его совершит? В основе такого подхода лежит не магия, а старая, хорошо изученная математика, которая внезапно обретает новую жизнь в мире кибербезопасности».

# Марковские модели для прогнозирования поведения атакующих

Методы обнаружения угроз в ИТ-системах исторически строились на анализе событий, которые уже произошли. Сигнатуры известных атак, правила корреляции событий, эвристики – всё это работает с данными из прошлого, чтобы среагировать на угрозу в настоящем. Прогнозирование следующего шага злоумышленника оставалось уделом аналитиков, их интуиции и накопленного опыта. Однако в последние годы в арсенале исследователей безопасности появились математические подходы, позволяющие формализовать этот процесс. Одним из таких инструментов являются марковские модели.

Идея использовать марковские модели не нова – они десятилетиями применяются в лингвистике для предсказания следующего слова, в финансах для анализа цен, в биологии для моделирования цепочек ДНК. Их суть заключается в том, что будущее состояние системы зависит только от её текущего состояния, а не от всей предыстории. Этот принцип, называемый «марковским свойством» или отсутствием памяти, парадоксальным образом хорошо описывает и поведение атакующего в ходе кибератаки. Злоумышленник, достигнув определённой точки в системе, выбирает следующий шаг, исходя из текущих возможностей (найденных уязвимостей, уровня доступа, видимой сети), а не из последовательности всех своих действий за последний месяц.

## Как работает марковская модель в кибербезопасности

Основой для построения модели служат последовательности действий атакующих, наблюдаемые в реальных инцидентах или смоделированные в рамках тестов на проникновение. Эти последовательности, часто называемые kill chain или цепочками атак, детализируются до уровня отдельных атомарных шагов: сканирование порта, эксплуатация уязвимости, выполнение произвольной команды, установка backdoor, повышение привилегий, перемещение по сети.

Каждый такой шаг становится состоянием в марковской модели. Переходы между состояниями – это возможные следующие действия атакующего из данной точки. Вероятности этих переходов вычисляются на основе исторических данных: как часто из состояния «эксплуатация уязвимости в веб-приложении» атакующие переходили к «доступу к файловой системе», а как часто – к «инъекции в базу данных».

[ИЗОБРАЖЕНИЕ: Упрощённая схема марковской модели атаки. Круги обозначают состояния (например, «Сканирование», «Эксплуатация», «Установка»), стрелки – возможные переходы между ними с указанием вероятностей. Модель выглядит как направленный граф.]

Ключевая аналитическая задача здесь – не просто задокументировать состояния, а корректно определить их гранулярность. Слишком абстрактные состояния (например, «проникновение») бесполезны для прогноза. Слишком детальные (например, «отправлен HTTP-запрос на порт 443 с определённым заголовком User-Agent») приводят к необучаемой модели с миллионами уникальных, редко встречающихся состояний.

Построенная и обученная на данных модель позволяет решать две основные задачи:
* **Оценка риска текущего состояния.** Если система находится в состоянии, из которого существует высокая вероятность (близкая к 1) перехода к критичным состояниям вроде «полный контроль над контроллером домена», текущий инцидент автоматически получает максимальный приоритет для реагирования.
* **Прогноз следующего вероятного шага.** Исходя из наблюдаемой цепочки событий, модель может предсказать, с какими вероятностями атакующий выполнит те или иные действия далее. Это позволяет упреждающе настраивать правила мониторинга на конкретные системы или блокировать потенциальные векторы атаки.

## От теории к практике: задачи и ограничения

Современные реализации марковских моделей в SOC (Security Operations Center) и системах класса EDR/XDR сталкиваются с рядом практических сложностей.

**Проблема обучающих данных.** Для построения качественной модели нужны обширные и качественные данные – журналы реальных успешных атак, желательно разного типа и направленности. Такие данные либо закрыты, либо их сбор требует огромного времени. Частичным решением становится использование симуляций атак, например, с помощью фреймворков вроде MITRE ATT&CK, но такая модель может оказаться менее репрезентативной для уникальных инфраструктур.

**Динамичность векторов атак.** Вероятности переходов, выученные на атаках прошлого года, могут оказаться нерелевантными для новых техник. Модель требует постоянного переобучения и адаптации.

**Шум и детектирование обходных манёвров.** Реальные системы генерируют огромное количество легитимных событий, которые могут быть ошибочно интерпретированы как часть атаки. Кроме того, опытный атакующий, зная о системах обнаружения, может намеренно выполнять неочевидные, «маловероятные» с точки зрения модели действия, чтобы остаться незамеченным.

Несмотря на эти сложности, подход демонстрирует эффективность, особенно при использовании в составе гибридных систем. Марковская модель не заменяет собой сигнатурные или поведенческие анализаторы, а дополняет их, добавляя в систему аналитический слой, способный оценивать ситуацию в динамике.

## Марковские цепи и скрытые марковские модели (HMM) в детектировании атак

Простые марковские цепи работают с наблюдаемыми состояниями. Однако в инфосистемах мы часто видим не само состояние атакующего, а лишь его косвенные признаки (артефакты) в логах: неудачные попытки входа, изменения в реестре, сетевые соединения на нестандартные порты.

Здесь на помощь приходят скрытые марковские модели (Hidden Markov Models, HMM). В HMM предполагается, что существует некоторая скрытая, ненаблюдаемая напрямую последовательность состояний (истинных намерений и действий атакующего), которая порождает наблюдаемую последовательность событий в логах. Задача модели – по цепочке наблюдаемых событий с максимальной вероятностью восстановить эту скрытую цепочку состояний.

[ИЗОБРАЖЕНИЕ: Схема работы скрытой марковской модели (HMM) в кибербезопасности. Сверху – скрытые состояния (Намерение сканировать, Эксплуатация, Установка бэкдора). От них стрелки идут к наблюдаемым событиям в логах (много SYN-пакетов, запрос к уязвимому endpoint, запуск нового процесса). Показано, как цепочка событий позволяет «заглянуть» в скрытую цепочку состояний.]

Например, наблюдаемая последовательность «много SYN-пакетов на разные порты» → «установленное сетевое соединение на порт 445» → «успешная аутентификация по Kerberos» может с высокой вероятностью указывать на скрытую цепочку состояний «активное сканирование сети» → «доступ к уязвимой службе SMB» → «перебор или использование украденных учётных данных для движения по сети».

Использование HMM позволяет системам детектирования работать с более высокоуровневыми понятиями, отсеивая шум и объединяя разрозненные низкоуровневые события в единую логическую цепочку, которую уже можно анализировать и прогнозировать.

## Встраивание в регуляторные требования и российский контекст

Внедрение прогнозных аналитических систем, основанных на марковских моделях, напрямую пересекается с рядом требований регуляторов.

1. **Требования к непрерывному мониторинту (152-ФЗ, ПКЗ).** Законы обязывают операторов обеспечивать безопасность персональных данных, что включает постоянный контроль. Модель, прогнозирующая развитие инцидента, является инструментом проактивного контроля, а не просто регистрации событий.
2. **Современные СОВ (системы обнаружения вторжений).** ФСТЭК России в своих руководящих документах и требованиях к защите информации всё чаще говорит о необходимости систем, способных к выявлению сложных целевых атак. Традиционные сигнатурные СОВ не справляются с этой задачей в полной мере. Прогнозные модели, анализирующие последовательности действий, являются шагом к созданию систем нового поколения, соответствующих этим ожиданиям.
3. **Обработка больших данных.** Работа с марковскими моделями требует обработки огромных объёмов событий безопасности в реальном времени. Это стимулирует развитие инфраструктуры SIEM-систем, их интеграцию с системами Big Data и машинного обучения, что также соответствует общему тренду на цифровизацию и автоматизацию процессов безопасности.

Важный аспект для российских организаций – импортонезависимость и использование отечественных разработок. Алгоритмы, лежащие в основе марковских моделей, являются математическим знанием и не зависят от конкретных зарубежных платформ. Их реализация может быть успешно выполнена в рамках российских SIEM- и EDR-решений, что делает технологию перспективной с точки зрения суверенитета в сфере кибербезопасности.

## Будущее и развитие подхода

Марковские модели – не панацея, а мощный аналитический инструмент, чья эффективность раскрывается в комбинации с другими методами. Будущее лежит в создании гибридных систем, где:
* Марковские модели обеспечивают прогнозное планирование и оценку риска развития атаки.
* Глубокое обучение (нейронные сети) обрабатывает неструктурированные данные и выявляет сложные аномалии.
* Экспертные правила и сигнатуры гарантируют быстрое реагирование на известные угрозы.

Кроме того, актуальным направлением становится разработка адаптивных моделей, способных обучаться на данных конкретной организации, учитывая её уникальную архитектуру, бизнес-процессы и профиль нормальной активности. Это позволит снизить количество ложных срабатываний и повысить точность прогнозов.

Практическое применение марковских моделей сегодня – это уже не академические исследования, а функционирующие модули в продвинутых коммерческих и корпоративных системах защиты. Их внедрение требует квалификации в области data science и аналитики безопасности, но в долгосрочной перспективе именно такие технологии позволяют перейти от реактивной к упреждающей безопасности, сокращая время на обнаружение и реагирование на сложные кибератаки.

Оставьте комментарий