Почему в информационной безопасности так мало рандомизированных исследований

“Зачем изучать, насколько уязвимость повышает риск, если в итоге всё равно придется всё патчить? Индустрия кибербезопасности строится не на воспроизводимых доказательствах, а на доверии к лейблам, интуиции инженеров и страхе упустить угрозу. Здесь идёт речь о том, почему стандарт доказательной медицины — рандомизированные контролируемые исследования — почти не приживается в нашей области и к каким последствиям это приводит”

Внедрение новых технологий, стандартов или даже политик в сфере информационной безопасности, это всегда сложный процесс, требующий обоснования. Руководство ожидает, что инвестиции в защиту принесут ощутимый результат: снизят количество инцидентов или минимизируют ущерб. Однако как доказать, что именно новый файрвол или обновлённый регламент по паролям дал этот эффект? В других дисциплинах для этого существуют gold standard — рандомизированные контролируемые испытания (РКИ). Это метод, при котором участников случайным образом распределяют по тестовой и контрольной группам, что позволяет максимально нивелировать влияние посторонних факторов. В фармацевтике, социологии и даже IT-продуктах РКИ — обычная практика. Но в ИБ их почти нет. Случайность наблюдается лишь в выборе жертв атаки.

Культура быстрых решений против методологии доказательств

Индустрия информационной безопасности развивается под давлением. Давление исходит от ежедневных новостей об утечках, требований регуляторов и аудиторов, а также внутреннего запроса бизнеса на «снижение рисков». Это создаёт культуру, в которой важна скорость реакции, а не глубина анализа. Решение часто выбирается не потому, что оно наиболее эффективно с научной точки зрения, а потому что его продвигает крупный вендор, его упоминают в отчётах аналитиков или его уже внедрили конкуренты.

Идея провести РКИ для оценки, например, эффективности нового решения класса EDR выглядит абсурдно с точки зрения операционной деятельности. Это требует месяцев планирования, создания изолированных тестовых сред, набора участников и строгого контроля переменных. За это время уязвимость может быть использована в реальной атаке, выйдет три новых решения от конкурентов, а регулятор обновит требования. Бизнес не готов ждать и платить за «чистоту эксперимента».

Более того, сама логика ИБ часто противоречит этике РКИ. Представьте исследование, где одна группа компаний получает защиту от фишинга на основе поведенческого анализа, а контрольная группа — нет. Если в контрольной группе произойдёт успешная атака с финансовыми потерями, это вызовет не только этические, но и юридические вопросы. Кто несёт ответственность? В медицине есть этические комитеты и согласия пациентов. В корпоративной безопасности согласие на участие в «контрольной группе без защиты» получить практически невозможно.

Проблема «чёрного лебедя» и уникальности среды

Эффективность средств защиты часто проверяется на известных угрозах в лабораторных условиях. Но реальная ценность решения определяется тем, как оно поведёт себя при столкновении с неизвестной, целевой атакой — тем самым «чёрным лебедем». РКИ по своей природе плохо приспособлены для оценки подобных редких событий с катастрофическими последствиями.

Каждая корпоративная среда уникальна: свой набор приложений, специфика бизнес-процессов, уровень цифровой грамотности сотрудников, унаследованные системы. Это делает крайне сложным создание репрезентативной выборки для РКИ. Результат, полученный в одной организации, может быть совершенно неприменим в другой из-за разницы в инфраструктуре или человеческом факторе. В итоге исследование теряет общую значимость, а затраты на его проведение не окупаются полученным знанием.

Что измерять? Парадокс метрик в ИБ

Ключевой вопрос любого РКИ — выбор метрики, по которой будет оцениваться успех. В медицине это может быть уровень выживаемости или количество рецидивов. В ИБ очевидные кандидаты — количество успешных инцидентов или среднее время на обнаружение угрозы. Однако эти метрики проблематичны.

Во-первых, отсутствие инцидента не доказывает эффективность защиты. Это может быть следствием низкой активности атакующего или его выбора других целей. Во-вторых, сбор данных об инцидентах сам по себе неточен: многие атаки остаются незамеченными или неатрибутированными. В-третьих, слишком много шума создают ложные срабатывания систем. Если мы измеряем время на реакцию, то улучшение этого показателя может быть достигнуто просто за счёт отключения «шумных» правил, что в итоге снизит общий уровень безопасности.

не имея надёжных, объективных и воспроизводимых метрик, проводить контролируемые испытания бессмысленно — их результаты невозможно будет корректно интерпретировать.

Альтернативы: как всё-таки принимают решения

Поскольку РКИ практически не применяются, индустрия выработала свои, менее строгие, но более практичные методы оценки.

Экспертные обзоры и тесты. Лаборатории и независимые исследователи проводят сравнительные тесты решений в смоделированной, но не рандомизированной среде. Результаты таких тестов хоть и содержат погрешности, но дают примерное представление о возможностях продукта.
Кейсы и отраслевые отчёты. Опыт других компаний, особенно из той же отрасли, становится заменой научного доказательства. Если банк X внедрил технологию Z и публикует кейс о снижении числа атак, это становится сильным аргументом для банка Y.
Уровень зрелости и соответствие стандартам. Внедрение практик из NIST Cybersecurity Framework или требований ФСТЭК по 152-ФЗ часто служит самодостаточным обоснованием. Аудиторы проверяют не фактическую эффективность, а наличие процессов и их документированность.
Красные команды и пентесты. Это наиболее приближенный к реальности способ проверки. Хотя он не является контролируемым исследованием, успешное или неуспешное проникновение команды этичных хакеров даёт конкретные, осязаемые данные о слабых местах.

Эти методы формируют экосистему принятия решений, где доверие к авторитету (вендора, аналитика, регулятора) часто заменяет статистическую значимость.

Последствия: рынок убеждения, а не доказательств

Отсутствие строгой доказательной базы имеет далеко идущие последствия для всей индустрии.

Рынок кибербезопасности превращается в рынок маркетинга и убеждения. Бюджеты распределяются не на решения с лучшим показателем cost/benefit, а на те, что упакованы в более убедительную историю, подкреплённую громкими именами партнёров или устрашающей статистикой в отчётах. Это создаёт пространство для продуктов с сомнительной эффективностью, которые, однако, хорошо продаются благодаря агрессивной рекламе и страху.

Для специалистов это означает, что карьерный рост и признание часто зависят не от способности проводить глубокий анализ и представлять доказательства, а от умения ориентироваться в трендах, продавать идеи руководству и работать с вендорами. Фундаментальные исследования в области прикладной ИБ не получают достаточного финансирования, так как их экономическая отдача неочевидна и отсрочена во времени.

В конечном счёте, бизнес и госструктуры могут годами тратить значительные средства на «защиту», эффективность которой никогда не была надёжно измерена. Это системная уязвимость, присущая самой модели функционирования индустрии.

Возможен ли сдвиг?

Ситуация не безнадёжна. Некоторые области начинают двигаться в сторону более строгих методов. Например, исследования в области безопасности разработки (DevSecOps) иногда используют A/B-тестирование для оценки влияния новых практик код-ревью на количество уязвимостей. Сообщества open-source, такие как Apache или Linux Foundation, могут служить полигонами для более чистых экспериментов благодаря прозрачности своих процессов.

Для реальных изменений потребуется:

Развитие культуры метрик. Создание и стандартизация измеримых, значимых и практичных показателей безопасности, которые выходят за рамки простого подсчёта срабатываний.
Сотрудничество на уровне отрасли. Крупные игроки могли бы анонимно обмениваться данными об атаках и эффективности контрмер, создавая общую доказательную базу, подобную медицинским регистрам.
Адаптация методологии. Разработка этичных и реализуемых форм квази-экспериментальных исследований, приемлемых для корпоративного контекста, возможно, с использованием симуляций и моделей угроз.

Пока же индустрия продолжает жить в парадигме, где мнение и авторитет часто имеют больший вес, чем воспроизводимый эксперимент. Понимание причин этого — первый шаг к тому, чтобы начать задавать правильные вопросы при выборе средств защиты и требовать от вендоров не красивых презентаций, а реальных, измеримых результатов.