Как PAC-теория обучения помогает выполнять 152-ФЗ на практике

«Всё, что мы сегодня называем машинным обучением для безопасности, от моделей обнаружения атак до систем категоризации угроз, стоит на теоретических опорах, сформулированных ещё до эпохи больших данных. Эти основы — не абстрактная математика, а прямой ответ на регуляторные требования, в том числе 152-ФЗ: почему модель считается «обученной», что значит «результат с заданной точностью» и где граница между статистической погрешностью и недостатком защиты».

Разбираемся с PAC-learning

Чтобы понять, как проверять ИИ, сначала разберёмся, как он учится. Представьте, что вам нужно объяснить ребёнку, что такое «кошка». Вы можете показать ему фотографии разных кошек. После этого вы попросите его указать на кошку среди фотографий, которые он ещё не видел. Если ребёнок почти всегда угадывает правильно, значит, он научился концепции «кошка» по виденным примерам. Эта интуиция лежит в основе Probably Approximately Correct (PAC) — вероятностно приближённо корректного — подхода к обучению.

Теория PAC-learning формализует этот процесс. Она изучает, могут ли алгоритмы обучения извлекать полезные концепции (гипотезы) из конечных наборов данных, чтобы успешно работать на новых, незнакомых примерах. Ключевых переменных здесь три: точность (сколько ошибок допустимо), уверенность (с какой вероятностью мы этого результата достигнем) и сложность задачи.

Само существование этой теории — ответ на фундаментальный вопрос, возникающий в любой сфере применения: можно ли вообще обучить машину отличать вредоносный трафик от легитимного, если мы не можем показать ей абсолютно все возможные виды атак? PAC-теория математически доказывает, что это возможно при определённых условиях. Эти условия задают планку для любого серьёзного проекта в области ИИ для кибербезопасности.

Связь парадигмы PAC-обучения с практической регуляторикой

Допустим, регулятор в лице ФСТЭК или Роскомнадзора проверяет систему, использующую машинное обучение для контроля доступа или обнаружения инцидентов. Их задача — убедиться, что система работает не просто по «воле случая» или на тестовых данных, а стабильно справляется с реальными угрозами. Концепция PAC даёт проверяющим и разработчикам общий язык.

Формальные требования законов и стандартов часто остаются на уровне деклараций: «система должна обеспечивать обнаружение угроз» или «обработка должна быть точной». PAC-теория предлагает способ эту декларацию измерить. Вместо расплывчатых фраз можно сформулировать требования так: «Модель должна с вероятностью не менее 95% и с точностью не ниже 99% классифицировать вредоносные действия из заданных категорий». Два этих числа — не произвольные показатели, а прямые аналоги параметров (δ) и точности (ε) из PAC-теории.

Более того, при сертификации или аттестации информационной системы (ИС) по требованиям безопасности возникает вопрос о достаточности набора тестов. Сколько нужно «прогнать» тестовых сценариев, чтобы можно было сделать вывод об адекватности системы? Ответ — достаточно для того, чтобы с заданной уверенностью (например, 99%) утверждать, что уровень ложных срабатываний/пропусков не превышает заданный порог (например, 0.1%). Численные привязки этих параметров непосредственно выводятся из PAC-теории через вероятностные границы, такие как граница Чернова или Хёфдинга.

Сложность концепций — ключевое ограничение

Возможность успешного PAC-обучения зависит не только от данных и алгоритма, но и от сложности самой концепции, которую нужно изучить. В теории формализуется через размерность Вапника-Червоненкиса (VC-dimension). Если коротко, это мера выразительной способности класса гипотез, который использует алгоритм.

Простой пример: задача отделения «кошек» от «не кошек» на фотографиях может быть очень сложной (высокая VC-размерность), если мы пытаемся сделать это с помощью простой линейной разделяющей прямой на пикселях. Класс таких гипотез (все возможные прямые) слишком прост для задачи. Нужный для решения класс гипотез (например, глубокие нейронные сети) обладает другой внутренней сложностью.

Чем выше VC-размерность класса гипотез, тем больше данных потребуется для достижения заданного уровня уверенности и точности. В кибербезопасности это означает: для обнаружения сложных целевых атак с помощью глубоких сетей потребуется значительно больший и разнообразный объём данных для обучения и валидации, чем для простой сигнатурной фильтрации. Регулятор, понимающий эту связь, будет задавать обоснованные вопросы не только о точности модели, но и о том, насколько объём и качество обучающей выборки соответствуют сложности решаемой задачи. Отсутствие такого соответствия — прямое указание на риск недообученной и ненадёжной системы.

Что меняет реализация PAC в глубоком обучении в России

Большинство современных практических систем машинного обучения, особенно в России, строятся на глубоких нейросетях. Их VC-размерность теоретически огромна. Согласно классической PAC-теории, для их обучения потребовались бы немыслимые объёмы данных. Однако на практике модели работают. Это не опровержение теории, а указание на её эволюцию: переобучение компенсируется не объёмом данных, а методами регуляризации.

Такие техники, как Dropout, Data Augmentation, Batch Normalization и L1/L2-регуляризация, по сути, искусственно «сбрасывают» эффективную сложность модели в процессе обучения. Они не позволяют сети запомнить шумы в данных, вынуждая её выучивать более общие и устойчивые закономерности. Это прямое практическое решение проблемы обобщающей способности, которую описывает PAC-теория.

Для российского специалиста по информационной безопасности это создаёт двойственную ситуацию. С одной стороны, современные фреймворки позволяют легко применять регуляризацию, добиваясь хороших результатов на валидации. С другой, при отсутствии глубокого понимания, легко создать систему, эффективную только на известных данных, но беспомощную перед новым типом атаки, поскольку регуляризация подавила не шум, а важные, но редкие признаки угроз. Грамотная оценка рисков при использовании ИИ в критически важных системах должна включать анализ не только итоговых метрик, но и применённых методов контроля переобучения.

Практические последствия для ИБ-архитектуры

Теория непосредственно влияет на проектирование защищённых систем. Основной вывод: модель, обученная один раз и поставленная «на поток», неизбежно деградирует. PAC-теория не гарантирует вечную стабильность. Она гарантирует результат только для данных, распределённых так же, как обучающая выборка.

В реальном мире распределение угроз меняется — возникают новые атаки, старые модифицируются. Модель, обученная на данных образца 2020 года, будет всё хуже справляться с угрозами 2025 года не из-за просчёта разработчиков, а в силу фундаментального ограничения обобщающей способности при смене распределения данных.

Отсюда возникает практическое требование: любая система безопасности, основанная на ML, должна включать контур непрерывного мониторинга её эффективности и механизм переобучения или адаптации. Регуляторный надзор также должен быть нацелен не на разовую проверку, а на оценку этого контура мониторинга и обновления. Это напрямую соотносится с требованиями 152-ФЗ о постоянном мониторинге и контроле эффективности принятых мер защиты информации.

Интерпретируемость как производная от PAC

Ещё один аспект, где теория обучения пересекается с регуляторной практикой — интерпретируемость (объяснимость) моделей. Понятие «приближённо корректная» гипотеза можно расширить: мы хотим, чтобы модель не просто выдавала правильный ответ, но делала это по правильным, понятным человеку причинам.

С формальной точки зрения, гипотеза, которую человек может проверить и понять, имеет более предсказуемое поведение и, как следствие, потенциально более контролируемую сложность. Если модель для обнаружения аномалий в журналах доступа не просто ставит метку «подозрительно», но и указывает, что именно — аномальный временной промежуток, необычная комбинация прав, отклонение от типовой последовательности действий — вызвало подозрение, то её логику проще проверить эксперту. Эта проверяемость косвенно свидетельствует о лучшей обобщающей способности и меньшем переобучении на артефакты данных.

В российском контексте, где требования к прозрачности систем всё чаще упоминаются (в том числе в контексте импортозамещения и необходимости глубокого аудита), способность обосновать решение становится не просто удобной опцией, а потенциальным критерием выбора или аттестации системы.

PAC-learning как инструмент оценки поставщиков

При выборе коммерческой системы информационной безопасности, использующей ИИ, PAC-теория даёт заказчику и проверяющему органу чёткий перечень вопросов, которые нужно задать вендору. Вопросы эти выходят за рамки простой демонстрации работы.

Что стоит спросить:

Какова заявленная точность (ε) и доверительная вероятность (δ) для вашей модели на независимой тестовой выборке, репрезентативной для нашей среды?
Какой объём и какое разнообразие данных использовались для обучения? Как вы оцениваете, что этого достаточно для задачи с такой сложностью?
Какие методы регуляризации или контроля переобучения применяются в процессе обучения модели?
Как реализован механизм мониторинга деградации качества модели со временем и её переобучения?
Предоставляет ли система объяснения для своих решений, и можно ли их верифицировать?

Ответы на эти вопросы, подкреплённые документацией и тестами, являются гораздо более весомым доказательством зрелости продукта, чем маркетинговые лозунги об «искусственном интеллекте». В конечном счёте, PAC-теория не даёт готовых ответов, но задаёт строгую рамку для диалога между разработчиком, заказчиком и регулятором, переводя разговор из плоскости доверия в плоскость измеримой и обоснованной оценки эффективности.