«Большая часть защиты ИИ сводится к шифрованию на входе и на выходе. Но есть целый класс методов, которые можно назвать «криптографией без ключей»
для машинного обучения. Они доказывают, что определённые атаки принципиально невозможны, потому что не хватит данных в мире, чтобы их выполнить. Разбираемся, где это работает, а где остаётся красивой математикой, далёкой от реального применения.»
Что такое security в машинном обучении и зачем его нужно измерять
Когда говорят о безопасности моделей машинного обучения, обычно имеют в виду защиту от трёх типов угроз: эксплуатацию уязвимостей, кражи данных и атаки на целостность системы. Уязвимости, это баги в коде фреймворков, ошибки в сериализации моделей или проблемы в инфраструктуре развёртывания. Здесь помогаются классические подходы из AppSec и DevSecOps. Защита данных сводится в основном к шифрованию передаваемых запросов и ответов, а также к контролю доступа к хранилищам. Атаки на целостность, это adversarial attacks, data poisoning или backdoor-атаки, цель которых заставить модель выдавать заданный неверный результат.
Но есть и другой слой, который редко затрагивают на практике: защита самой модели как интеллектуального актива. Модель, это не просто файл с весами; это сжатое представление обучающих данных и результат дорогостоящих вычислительных экспериментов. Прямое шифрование файла модели — лишь препятствие для прямого доступа, но не защищает от косвенного извлечения информации. Атаки на вывод, такие как membership inference или model inversion, позволяют злоумышленнику, имеющему лишь доступ к API модели, восстановить характеристики обучающих данных или даже сами примеры.
Информационно-теоретическая безопасность предлагает принципиально иной способ измерения защищённости. Она не отвечает на вопрос «Насколько сложно взломать эту систему?», а на «Сколько информации в принципе может быть извлечено при заданных условиях?». Если математически доказать, что из выходов модели невозможно извлечь сверх определённого количества бит информации о входных данных, то никакая вычислительная мощь эту границу не преодолеет.
От вычислений к информации: новый язык для оценки рисков
Классическая криптография опирается на вычислительную сложность. Она предполагает, что у атакующего недостаточно времени или вычислительных ресурсов, чтобы подобрать ключ или решить сложную математическую задачу. Проблема в том, что вычислительные возможности растут, а теоретические прорывы (например, квантовые компьютеры) могут сделать некогда стойкие алгоритмы уязвимыми завтра.
Information-theoretic security уходит от этой зависимости. Её базовым понятием является взаимная информация — мера того, насколько знание одной случайной величины уменьшает неопределённость относительно другой. В контексте ML модель рассматривается как канал связи между обучающим набором данных (D) и параметрами модели (W), или между входными данными (X) и предсказаниями модели (Y). Задача — ограничить взаимную информацию I(D; W) или I(X; Y).
Если I(D; W) = 0, это означает, что веса модели статистически не зависят от конкретного обучающего набора. Получить такую модель на практике почти невозможно, но можно стремиться к минимизации этой величины. Тогда даже имея на руках полный дамп памяти с весами модели, атакующий не сможет сделать значимых выводов о том, какие данные были в обучающей выборке. Это прямой путь к защите от membership inference-атак.
Дифференциальная приватность как самый известный пример
Дифференциальная приватность, это сегодня самый распространённый и практически применимый инструмент из арсенала information-theoretic security для ML. Её математический аппарат как раз и работает с вероятностными гарантиями утечки информации.
Формально, рандомизированный алгоритм M удовлетворяет ε-дифференциальной приватности, если для любых двух соседних наборов данных D и D’, отличающихся одной записью, и для любого подмножества возможных выходов S выполняется:
Pr[M(D) ∈ S] ≤ e^ε * Pr[M(D’) ∈ S]
Параметр ε здесь напрямую связан с взаимной информацией: чем он меньше, тем меньше информации о конкретной записи в наборе данных может «просочиться» в результат работы алгоритма. В машинном обучении это достигается за счёт двух основных техник:
- Добавление контролируемого шума на этапе вычисления градиентов (как в алгоритме DP-SGD).
- Добавление шума к самим выходным данным модели (предсказаниям).
Дифференциальная приватность не делает модель неуязвимой ко всему. Она даёт строгую гарантию против атак, целью которых является выделение вклада одной конкретной записи данных. Это не защита от adversarial examples и не панацея от всех угроз, но фундаментальный барьер для одного важного класса атак на приватность.
Сжатие модели и границы её запоминания
У модели, способной к обобщению, есть фундаментальное свойство: она не запоминает обучающие данные дословно, а извлекает из них общие закономерности. Этот процесс можно рассматривать как сжатие информации. Теоретически, если модель идеально обобщает, то взаимная информация I(D; W) должна быть мала — модель хранит лишь общие правила, а не конкретные примеры.
На практике же большие современные модели склонны к переобучению и запоминанию. Исследования показывают, что из больших языковых моделей можно извлечь фрагменты текстов, присутствовавших в обучающем корпусе. Это прямое следствие высокой взаимной информации между данными и весами.
Здесь возникает связь с другим information-theoretic понятием — информационной ёмкостью модели. Можно оценить, сколько бит информации о датасете в принципе может сохранить модель заданного размера. Если атакующий пытается извлечь больше информации, чем эта ёмкость, его попытки обречены на провал не из-за сложности вычислений, а из-за фундаментального отсутствия информации. Проблема в том, что для современных моделей с миллиардами параметров эта ёмкость огромна, и теоретические гарантии становятся слабыми. Работа идёт в сторону создания методов регуляризации, которые бы явно ограничивали эту ёмкость в процессе обучения.
Практические методы ограничения информации
- Ранняя остановка (Early Stopping): Прекращение обучения до того, как модель начнёт слишком точно подстраиваться под шум в данных, интуитивно снижает I(D; W). Это простейшая форма регуляризации с information-theoretic интерпретацией.
- Интенсивная регуляризация (L1, L2, Dropout): Штрафуя модель за сложность, мы неявно ограничиваем её способность кодировать в весах информацию о конкретных примерах, заставляя её находить более общие паттерны.
- Обучение с шумом: Внесение шума не только в градиенты (как в DP), но и во входные данные или активации скрытых слоёв, разрушает тонкие связи, которые могли бы вести к запоминанию.
Почему это пока не замена классическим методам безопасности
Information-theoretic подход даёт элегантные теоретические гарантии, но наталкивается на серьёзные практические ограничения в контексте регуляторики и реальных угроз.
Во-первых, гарантии часто формулируются в вероятностных терминах и для идеализированных моделей атак. ФСТЭК и другие регуляторы работают с директивами и стандартами, которые требуют проверяемых, часто бинарных критериев (соответствует/не соответствует). Перевести теорему о границе взаимной информации в такой формат крайне сложно.
Во-вторых, эти методы почти не защищают от эксплуатационных атак. Модель с гарантированной дифференциальной приватностью всё так же уязвима к adversarial example, если злоумышленник может отправлять ей произвольные запросы. Её API нужно так же защищать от DoS-атак, инъекций и несанкционированного доступа. Information-theoretic security, это защита содержимого, а не контейнера.
В-третьих, существует компромисс между безопасностью и полезностью (utility-privacy trade-off). Сильное ограничение информации, которую модель может выдать, напрямую бьёт по её точности. Для многих бизнес-задач снижение accuracy на несколько процентов из-за добавления сильного шума неприемлемо. Регуляторные требования по 152-ФЗ к обезличиванию данных также нужно сопоставлять с практической пригодностью системы.
Наконец, эти подходы требуют глубокого изменения самого процесса разработки ML. Это не плагин безопасности, который можно добавить в конце. Необходимо перепроектировать пайплайн обучения, что требует высокой квалификации и значительных вычислительных накладных расходов (как в случае с DP-SGD).
Синтез подходов: куда двигаться на практике
Наиболее разумная стратегия — не противопоставлять information-theoretic security классической, а комбинировать их в многослойной защите.
1. Архитектурный уровень. Применять методы, ограничивающие запоминание (ранняя остановка, регуляризация) на этапе разработки модели. Для систем, работающих с персональными данными, рассмотреть дифференциальную приватность как часть пайплайна обучения.
2. Системный уровень. Защищать развёрнутую модель классическими средствами: WAF для API, строгий контроль доступа, мониторинг аномальной активности, шифрование данных в rest и motion. Это основа.
3. Процедурный уровень. Дополнить технические меры организационными. Логировать все запросы к модели, проводить регулярный аудит на предмет аномальных паттермов в предсказаниях, которые могут указывать на попытку атаки на вывод.
4. Верификация. Вместо того чтобы пытаться формально доказать information-theoretic свойства сложной промышленной модели, можно использовать методы эмпирического тестирования. Например, проводить регулярные penetration-тесты, симулирующие membership inference или model inversion атаки на staging-окружении, чтобы оценить фактический уровень утечки.
Information-theoretic security задаёт теоретический потолок, к которому можно стремиться. Она показывает, какие утечки принципиально возможны, а какие — нет. Но строить систему защиты только на этих принципах — всё равно что проектировать здание, исходя только из законов термодинамики, забыв про строительные нормы и материалы. Практическая безопасность ML, это всегда компромисс между элегантными теоремами, производительностью системы и конкретными регуляторными требованиями, где последние два фактора пока задают основной вектор развития.