От прогноза к проекции: почему киберугрозы ускользают от моделей

«Сложность в прогнозировании угроз не в том, что не хватает данных, а в том, что реальность вносит системные сдвиги, которые наша модель уже считает аномалией. Мы проецируем прошлое на будущее, а будущее каждый раз подкидывает новые правила игры.»

От предсказания к проекции: почему киберугрозы ускользают от моделей

Прогностическое моделирование в кибербезопасности, это попытка применить к хаосу контролируемую методологию. Мы берем данные о прошлых атаках, исследуем векторы, частоту, целевую отрасль и пытаемся вывести паттерн, который можно экстраполировать на будущее. Формально модель работает: она предсказывает, что весной вырастет число фишинговых атак на финансовый сектор, а осенью активизируются группы, использующие определенные эксплойты. Но в реальности прогнозы часто либо запаздывают, либо предсказывают угрозы, которые уже очевидны, либо полностью упускают принципиально новые векторы. Проблема в том, что большинство моделей ориентированы на тренды, а не на разрывы шаблона. Они видят мир через призму исторических данных, которые по определению не содержат информации о будущих технологических, политических или социальных сдвигах.

Какие данные на самом деле использует модель

Любая прогностическая модель начинается с датасета. Источники данных формируют первое и самое значительное ограничение — bias в данных.

Данные об инцидентах, это преимущественно информация от коммерческих SOC, CERT и открытых источников. Но она отражает только обнаруженные и зафиксированные атаки. Успешные таргетированные атаки, оставшиеся незамеченными, или инциденты в организациях, не публикующих отчеты, в выборку не попадают. Модель учится на «шуме», а не на «тишине», игнорируя самый опасный сегмент угроз.
Данные о уязвимостях — поступают из репозиториев вроде NVD. Но там фиксируются уязвимости, о которых стало известно. Нулевые дни, техники эксплуатации, используемые закрытыми группами, остаются за пределами обучающей выборки. Модель может предсказать рост атак на популярную уязвимость, но не может предсказать появление самой уязвимости.
Контекстные данные — геополитическая обстановка, экономические санкции, выпуск крупного ПО. Их связь с киберугрозами часто корреляционная и нелинейная, что сложно формализовать в строгие правила для алгоритма.

В результате модель оказывается заложником известного и задокументированного. Её прогноз, это не предсказание будущего, а проекция прошлого на ближайший временной горизонт с поправкой на сезонность и линейные тренды.

Систематические ошибки в прогностических алгоритмах

Даже с идеальными данными алгоритмы вносят свои искажения. Один из ключевых рисков — переобучение (overfitting). Модель начинает «запоминать» шумы и случайные совпадения из обучающей выборки, теряя способность к обобщению. Например, если в данных была серия атак из определенной страны на энергетику в декабре, модель может начать предсказывать подобные атаки каждую зиму, даже если реальной закономерности нет.

Обратная проблема — недообучение (underfitting). Слишком простая модель не улавливает сложные взаимосвязи и выдает чрезмерно общие прогнозы вроде «риск DDoS-атак сохранится на высоком уровне». Такой прогноз технически верен, но бесполезен для планирования защитных мер.

Ещё один скрытый bias — cмещение подтверждения (confirmation bias) на уровне алгоритма. Разработчики невольно закладывают в модель гипотезы о мире. Если архитектор считает, что основная угроза исходит от государственных групп, модель будет придавать больший вес признакам, ассоциированным с APT, и может пропустить растущую угрозу от криминальных группировок, использующих Ransomware-as-a-Service.

Технический долг моделей

Прогностические модели в безопасности редко бывают статичными. Их необходимо постоянно дообучать на новых данных. Но здесь возникает проблема «дрейфа концепции» (concept drift). Это ситуация, когда статистические свойства целевой переменной, которую мы пытаемся предсказать, меняются со временем непредсказуемым образом. Вчера «успешная атака» означала кражу данных, сегодня — шифрование инфраструктуры с требованием выкупа, а завтра может означать саботаж промышленного контроллера. Если модель не адаптировать, её точность будет неуклонно падать. Однако постоянное дообучение требует ресурсов, а главное — четкого понимания, какие именно новые данные релевантны, а какие являются статистическим шумом.

Человеческий фактор: интерпретация и принятие решений

Самый совершенный прогноз бесполезен, если его неправильно интерпретируют. Здесь в дело вступают когнитивные искажения аналитиков и руководителей.

Эвристика доступности — склонность переоценивать вероятность событий, которые легко вспомнить. Если недавно была громкая атака на цепочку поставок, следующая модель, предсказывающая риски в этой области, получит больше доверия и ресурсов, даже если объективная угроза в другом месте.
Иллюзия контроля — вера в то, что модель дает полную картину и позволяет контролировать риски. Это приводит к ложному чувству безопасности и снижению инвестиций в «базовую гигиену» и реагирование на инциденты.
Селективное восприятие — тенденция выхватывать из отчета модели только ту информацию, которая подтверждает уже существующие убеждения или стратегические планы руководства.

В результате прогноз, который должен направлять ресурсы на самые критичные участки, часто используется для постфактумного оправдания уже принятых решений или для создания эффектных слайдов для совета директоров.

Ограничения в российском контексте регуляторики

В условиях требований регуляторов, таких как ФСТЭК и 152-ФЗ, прогностическое моделирование сталкивается с дополнительными специфическими ограничениями.

Во-первых, дефицит качественных данных для обучения. Многие организации, особенно в госсекторе и критической информационной инфраструктуре, не публикуют детальные отчеты об инцидентах в открытый доступ. Данные, если и собираются, то остаются внутри ведомственных или отраслевых контуров. Общенациональной, агрегированной и обезличенной базы для обучения моделей на российском сегменте угроз практически нет. Модели, обученные на западных датасетах, часто плохо применимы из-за различий в используемом ПО, архитектуре сетей и тактиках акторов.

Во-вторых, фокус регуляторов на соответствие, а не на эффективность. Требования 152-ФЗ и отраслевых стандартов ФСТЭК предписывают конкретные меры защиты. Бюджет и внимание ИБ-специалистов сконцентрированы на «чек-листовом» выполнении этих требований. Прогностическая модель, которая советует инвестировать в защиту сценария, не описанного в стандарте, столкнется с сопротивлением: «На это нет прямого требования регулятора». Прогнозирование становится не инструментом опережающего управления рисками, а дополнительной нагрузкой, которая должна вписаться в существующие рамки аудита.

В-третьих, сложность формализации «человеческого фактора». Значительная доля успешных атак в России связана с инсайдерами или низкой цифровой грамотностью. Прогнозировать человеческое поведение, мотивацию и ошибки на основе технических логов — задача экстремальной сложности, которую стандартные модели решают плохо.

Как работать с ограничениями: от слепой веры к осознанному использованию

Отказываться от прогностического моделирования из-за его недостатков — не решение. Нужно изменить подход к его использованию.

Переосмыслить цель модели. Вместо «предсказать следующую большую атаку» целью должно быть «выявить слабые сигналы и системные уязвимости». Модель должна не давать точный прогноз, а помогать отвечать на вопросы: «К каким типам атак наша текущая архитектура наиболее чувствительна?» или «Какие новые тактики из смежных отраслей могут быть применены против нас?»
Внедрить «красные команды» для моделей. Так же, как тестируют защиту с помощью упражнений Red Team, нужно тестировать и прогностические модели. Специалисты должны пытаться «обмануть» модель, смоделировав атаки, которые выпадают из её логики, чтобы выявить слепые зоны.
Сочетать количественные и качественные методы. Прогноз алгоритма должен быть не конечной истиной, а одним из входных данных для экспертной оценки. Аналитики, знакомые с тактиками акторов, геополитикой и бизнес-контекстом, должны интерпретировать и корректировать выводы модели.
Фокусироваться на устойчивости (resilience). Вместо того чтобы пытаться предугадать каждый вектор, более эффективно инвестировать в архитектуру и процессы, которые позволяют быстро обнаруживать, изолировать и восстанавливаться после инцидента любого типа. Прогностическая модель тогда становится инструментом для приоритезации этих инвестиций, а не панацеей.

Прогностическое моделирование угроз, это не магия, а сложный инструмент с известными погрешностями. Его ценность не в иллюзии предсказуемости, а в структурировании неопределенности. Понимая и компенсируя его limitations и biases, можно превратить его из источника ложных ожиданий в прагматичный компонент системы управления киберрисками, особенно там, где требуется балансировать между предписаниями регуляторов и реальной, меняющейся угрозой.