Multi-armed bandits: Адаптивный выбор правил в кибербезопасности

«В кибербезопасности не бывает универсального решения. Нужен механизм, который сам выберет лучший ответ на угрозу, основываясь не на гипотезах, а на реальных результатах в условиях неопределённости — и подстроится, когда правила игры изменятся»

Те, кто занимается построением SOC, знают, что от настройки правил корреляции зависит всё: либо вы своевременно видите реальную атаку, либо тонете в ложных срабатываниях. Типичная дилемма: поднять порог срабатывания, чтобы снизить шум — и пропустить реальную атаку. Или снизить его, чтобы ничего не пропустить — и утонуть в инцидентах. Система остаётся статичной, в то время как поведение злоумышленников и контекст сети постоянно меняются.

Одна из парадигм, которая позволяет превратить статичную систему мониторинга в адаптивную, пришла не из кибербезопасности, а из теории вероятностей и машинного обучения. Речь о задачах multi-armed bandits (MAB), или «многоруких бандитов». На русский их часто переводят как «многорукие бандиты», но суть остаётся неизменной.

Что скрывается за метафорой «многорукого бандита»?

Исходная задача формулируется просто. Представьте ряд игровых автоматов (слот-машин) с неизвестной вероятностью выигрыша. У вас ограниченный бюджет на «дергание за ручки». Ваша цель — максимизировать суммарный выигрыш. Вы стоите перед выбором: продолжать играть на автомате, который уже дал несколько выигрышей (эксплуатация известного), или попробовать другой, который может оказаться более выгодным, но пока не исследован (исследование неизвестного). Это классический компромисс exploration vs exploitation.

В контексте кибербезопасности «руки бандита», это не автоматы, а возможные действия системы защиты. Например, набор различных правил корреляции, порогов срабатывания, алгоритмов анализа трафика или даже целых сценариев реагирования. Каждое действие имеет свою неизвестную «стоимость» (ложное срабатывание, нагрузка на аналитика) и «выигрыш» (обнаруженная реальная угроза). Система должна научиться выбирать наиболее эффективные действия в условиях меняющейся обстановки, постоянно балансируя между использованием проверенных методов и тестированием новых.

Как это работает на практике: от правил корреляции до инцидент-ответа

Представьте модуль анализа логов в SIEM-системе. Он может активировать одно из нескольких правил для детектирования аномалий входа в систему:

Правило А: Срабатывает при 5 неудачных попытках входа за 10 минут с одного IP.
Правило Б: Срабатывает при 3 неудачных попытках входа за 5 минут, но только для учётных записей привилегированных пользователей.
Правило В: Срабатывает при любой неудачной попытке входа с IP, который ранее не фиксировался в логах.

Правило В будет создавать огромное количество шума, особенно в большой сети. Правило А может пропускать целенаправленные атаки. Эффективность каждого правила зависит от времени суток, дня недели, активности конкретных сегментов сети.

MAB-алгоритм может управлять этим набором. Изначально он случайным образом или по заданному распределению активирует разные правила, собирая обратную связь: было ли срабатывание подтверждено аналитиком как истинное? Сколько времени ушло на его разбор? На основе этой обратной связи алгоритм постепенно смещает вероятность выбора в пользу правил, которые дают больше подтверждённых инцидентов с меньшими затратами на анализ. Если контекст изменится (например, началась фишинг-кампания на рядовых сотрудников), правило Б может стать менее эффективным, и алгоритм начнёт чаще исследовать другие варианты.

Алгоритмы: от UCB до Thompson Sampling

Существует несколько семейств алгоритмов для решения задачи MAB. Выбор зависит от требуемого баланса, вычислительных ресурсов и характера обратной связи.

Upper Confidence Bound (UCB)

Этот алгоритм оптимистичен. Он выбирает действие, для которого оценка выигрыша плюс некоторая доверительная граница (confidence bound) является максимальной. Проще говоря, он предполагает, что недостаточно исследованное действие может быть очень хорошим, и даёт ему шанс. Формула выбора на каждом шаге t для действия a выглядит примерно так: score(a) = средний_выигрыш(a) + C * sqrt( ln(t) / N(a) ), где N(a) — сколько раз действие уже было выбрано, а C — параметр, регулирующий степень «оптимизма». В контексте безопасности это позволяет быстро находить новые эффективные правила в начале работы или после изменения угроз.

Thompson Sampling

Более вероятностный подход. Для каждого действия алгоритм поддерживает распределение вероятностей его выигрыша (например, бета-распределение). На каждом шаге он сэмплирует (генерирует) предполагаемое значение выигрыша для каждого действия из его текущего распределения и выбирает действие с наибольшим сгенерированным значением. После получения реальной обратной связи (успех/неудача) распределение для выбранного действия обновляется. Этот метод элегантно реализует баланс «исследование-использование» и часто показывает выдающиеся результаты на практике.

Epsilon-Greedy

Самый простой для понимания алгоритм. С вероятностью ε (например, 10%) система выбирает случайное действие для исследования, а с вероятностью 1-ε — действие с наивысшей известной средней наградой. Недостаток в том, что при исследовании он не делает различий между потенциально многообещающими и заведомо плохими действиями.

Выбор алгоритма — инженерный компромисс. Для начального внедрения в SOC часто начинают с Epsilon-Greedy из-за простоты, но для систем, где цена ошибки высока, а контекст сложен, лучше подходят UCB или Thompson Sampling.

Где это уже можно применять? Конкретные сценарии в периметре 152-ФЗ

Регуляторные требования 152-ФЗ и документы ФСТЭК фокусируются на достаточности и обоснованности мер защиты. Адаптивная система, доказуемо повышающая эффективность обнаружения, соответствует духу этих требований.

1. Адаптивная настройка DLP и IDS/IPS

Системы предотвращения утечек и вторжений часто работают с жёсткими шаблонами. MAB может управлять набором сигнатур или эвристик. Например, в DLP можно варьировать строгость анализа для разных типов документов (финансовые отчёты vs внутренние презентации) или для разных каналов передачи (электронная почта vs мессенджеры). Алгоритм учится на обратной связи от инцидентов: какие правила чаще всего дают истинные срабатывания на конкретных типах данных, не парализуя при этом бизнес-процессы.

2. Оптимизация расследования инцидентов

При поступлении алерта у аналитика есть несколько путей расследования: сразу поднять логи с хоста, проверить сетевое соединение, опросить пользователя или запустить глубокий анализ памяти. Каждый путь занимает разное время и даёт разную вероятность успеха. Система, построенная на MAB, может предлагать аналитику оптимальную последовательность шагов, основанную на статистике успешности предыдущих расследований для аналогичных типов алертов, экономя критически важное время при реагировании.

3. Динамическое управление ресурсами мониторинга

В условиях ограниченных вычислительных ресурсов нельзя детально мониторить всё и всегда. MAB может решать, на каких сегментах сети, хостах или пользователях в текущий момент стоит сконцентрировать более тщательный аудит или поведенческий анализ, основываясь на динамической оценке риска. Это превращает статичную модель «критических активов» в адаптивную систему приоритизации.

Ограничения и подводные камни

Внедрение MAB — не панацея, а сложный инженерный проект с рядом критических условий.

Качественная обратная связь: Алгоритм учится на отклике. Если обратная связь от аналитиков несистемна, запаздывает или ошибочна, система выучит неправильные паттерны. Требуется чёткий процесс классификации инцидентов.
Немгновенная награда: В безопасности выигрыш (предотвращение ущерба) может проявиться не сразу. Нужны механизмы для работы с отложенной наградой, что усложняет модель.
Адversarial контекст
Злоумышленник может изучать работу адаптивной системы. Если алгоритм становится предсказуемым (например, после серии ложных срабатываний отключает определённое правило), атакующий может спровоцировать это отключение, а затем провести реальную атаку. Поэтому в реализациях часто добавляют элемент случайности или используют более сложные контекстные бандиты (Contextual Bandits), которые учитывают не только историю действий, но и текущее состояние системы (контекст).
Интерпретируемость для регулятора: При проверке ФСТЭК может возникнуть вопрос: «По какому алгоритму ваша система принимает решения?». Нужно быть готовым объяснить логику работы, математическую модель и главное — показать, как она повышает достаточность мер защиты. «Чёрный ящик» на базе нейросетей здесь проигрывает более прозрачным MAB-алгоритмам.

Первые шаги к внедрению

Начинать стоит с малого, изолированного пилота. Последовательность может быть такой:

Выбор простой, измеримой задачи: Например, оптимизация порогов для одного типа событий в SIEM (неудачные логины). Определите 3-5 альтернативных значений порога или условий срабатывания.

Определение метрики «выигрыша»: Что для вас ценность? Например, комбинированная метрика: [Число подтверждённых инцидентов] — [Время на разбор ложных срабатываний в минутах].

Создание механизма обратной связи: Обязательный этап — аналитик должен ставить оценку каждому срабатыванию в пилотном режиме (True Positive, False Positive). Без этого данные для обучения не появятся.

Реализация простого алгоритма: Начать можно с Epsilon-Greedy, реализовав его как отдельный микросервис или скрипт, который взаимодействует с API SIEM и тикет-системы.

Запуск в режиме A/B-теста: Часть событий обрабатывается по старому, статичному правилу, часть — по решению MAB-алгоритма. Сравнивайте итоговые метрики за определённый период.

Эффект от внедрения — не в создании искусственного интеллекта, а в систематизации эмпирического опыта SOC. Алгоритм формализует и автоматизирует тот самый процесс «попробовали новое правило — оценили его полезность — стали использовать чаще», который в ручном режиме проходит хаотично и зависит от человеческого фактора.

В конечном счёте, multi-armed bandits, это инструмент для управления неопределённостью. В сфере ИБ, где угрозы эволюционируют, а ресурсы всегда ограничены, способность системы к автономному, обоснованному эксперименту и выбору становится не просто инновацией, а практической необходимостью для построения устойчивой защиты, соответствующей принципам, заложенным в 152-ФЗ.