Скрытые уязвимости модели: от обучения к инференсу

“В машинном обучении принято говорить о защите данных на этапе обучения, но на практике риски переносятся на этап инференса, и уязвимости моделей часто являются производными от уязвимостей в данных. Без понимания, как разные векторы атак пересекаются на протяжении всего жизненногоного цикла модели, любая защита становится частичной и неэффективной.”

От данных к модели: где прячутся уязвимости

Жизненный цикл ML-модели традиционно делится на обучение и эксплуатацию (инференс). На каждом этапе возникают свои угрозы, но корень большинства проблем лежит глубже — в данных и в том, как они формируют поведение модели.

На этапе обучения модель не просто ищет закономерности — она впитывает все паттерны, включая скрытые смещения, шум и потенциально злонамеренные вкрапления. Если в тренировочный набор попали данные, скомпрометированные атакующим, модель усвоит эту «отравленную» логику. Последствия проявятся позже, на инференсе, в виде целенаправленных ошибок или «бэкдоров».

Например, изменение всего 1% обучающих изображений определённого класса может заставить модель устойчиво неправильно классифицировать этот класс при предъявлении специального триггера. Уязвимость закладывается на обучении, но эксплуатируется на инференсе.

Типы атак на машинное обучение

Атаки можно классифицировать по этапу внедрения и цели. Эта классификация помогает выстроить стратегию защиты.

Атаки на обучение (Training-time Attacks)

Цель — скомпрометировать процесс обучения, чтобы повлиять на итоговые параметры модели.

Отравление данных (Data Poisoning): Атакующий манипулирует обучающим набором. Это не просто добавление шума, а целенаправленное внедрение образцов, которые сместят границы принятия решений или создадут скрытые уязвимости. Сложность в том, что изменения могут быть статистически неотличимы от легитимных данных.
Атаки на целостность модели (Model Integrity): Прямая модификация весов модели или процесса её обновления. Актуально для сценариев непрерывного обучения или дообучения на новых данных.

Защита на этом этапе фокусируется на верификации данных и контроле целостности пайплайна обучения.

Атаки на инференс (Inference-time Attacks)

Цель — обмануть уже обученную модель во время её работы.

Состязательные атаки (Adversarial Attacks): Создание специальных входных данных (adversarial examples), которые человек воспринимает корректно, но модель классифицирует ошибочно. Например, незаметные для глаза искажения на изображении знака «СТОП» заставляют автономную систему воспринимать его как знак «ограничение скорости».
Атаки на конфиденциальность модели:
- Членство-инференс (Membership Inference): Определение, входил ли конкретный образец данных в тренировочный набор модели. Это раскрывает конфиденциальность данных, на которых модель обучалась.
- Извлечение модели (Model Extraction): Попытка восстановить архитектуру и веса модели путём множества запросов к её API и анализа ответов. Это угроза интеллектуальной собственности.
Атаки на доступность: Цель — вывести систему из строя, например, создавая входные данные, которые приводят к максимально долгому времени обработки (атаки на вычислительную сложность).

Связь данных и уязвимостей модели

Уязвимости модели часто являются отражением проблем в данных. Рассмотрим несколько нетривиальных связей.

Смещения в данных порождают уязвимости для атак. Модель, обученная на несбалансированных данных, не только работает несправедливо, но и становится статистически менее устойчивой. Её решение для мало представленных классов часто основано на хрупких корреляциях, которые легче опрокинуть состязательным примером.

Дублирование данных ускоряет атаки членства-инференса. Если в тренировочном наборе много почти идентичных копий (например, одинаковые скриншоты из одного источника), модель «запоминает» их сильнее. Это создаёт более заметный след в её поведении, который может обнаружить атакующий.

Метаданные — скрытый вектор атаки. Данные для обучения редко поставляются в «стерильном» виде. EXIF-теги в изображениях, временные метки, особенности форматирования текста — всё это может нести скрытые паттерны. Модель может неявно научиться опираться на эти артефакты (например, классифицировать фото по характеристикам камеры, а не по содержанию). Атакующий, знающий об этом, может подделывать метаданные для манипуляции выводом модели.

Практические аспекты защиты

Защита ML-системы не сводится к установке одного инструмента. Это многослойный процесс, интегрированный в жизненный цикл разработки.

1. Защита на этапе данных и обучения

Курация и валидация данных: Внедрение строгих процедур проверки поступающих данных. Помимо формата и полноты, нужны проверки на статистические аномалии, поиск потенциально отравленных образцов с помощью аномалий-детекторов. Полезно ведение «золотого набора» — небольшой, тщательно проверенной выборки для постоянного контроля качества.
Дифференциальная приватность (Differential Privacy): Добавление контролируемого статистического шума в данные или в процесс обучения. Это сильно затрудняет атаки членства-инференса, так как влияние любого отдельного образца на итоговую модель маскируется.
Контроль целостности пайплайна: Обеспечение неизменности кода обучения, конфигураций и данных от источника до финальной модели. Использование контейнеризации, артефакт-репозиториев и подписей.

2. Защита на этапе инференса

Обнаружение состязательных атак: Настройка фильтров на входе модели, которые анализируют входящие данные на предмет аномалий, характерных для adversarial examples. Например, детектирование нестандартных комбинаций признаков.
Состязательное обучение (Adversarial Training): Включение состязательных примеров в тренировочный набор. Модель учится быть устойчивее к подобным искажениям. Однако этот метод требует значительных вычислительных ресурсов и не защищает от всех типов атак.
Сжатие и квантование: Некоторые методы сжатия моделей для ускорения инференса имеют побочный эффект сглаживания пространства решений, что может повысить устойчивость к мелким искажениям входных данных.
Детектирование атак на доступность: Мониторинг времени отклика модели. Неожиданное увеличение latency может быть признаком попытки атаки на вычислительную сложность.

3. Защита самой модели

Затруднение извлечения: Ограничение частоты и детализации ответов API модели. Возврат не сырых вероятностей, а только итогового класса (или «зашумлённых» вероятностей). Внедрение задержек (rate limiting).
Водяные знаки (Watermarking): Внедрение в модель скрытых маркеров, которые проявляются только на специальных входных данных. Это позволяет доказать авторство в случае кражи модели.

Организационные и регуляторные аспекты в российском контексте

Внедрение ML-систем в ответственных областях требует учёта не только технических, но и регуляторных требований.

Подходы к защите информации, в том числе с использованием машинного обучения, в России во многом определяются требованиями регуляторов, таких как ФСТЭК России, и рамками закона 152-ФЗ «О персональных данных».

Если модель обрабатывает персональные данные, весь её жизненный цикл попадает под действие 152-ФЗ. Это означает необходимость:

Определения правового основания для обработки ПД машинным обучением.
Обеспечения конфиденциальности данных на всех этапах, включая этап обучения. Методы вроде дифференциальной приватности или федеративного обучения могут рассматриваться как технические меры для минимизации рисков.
Реализации прав субъектов ПД, включая право на объяснение автоматизированного решения. Это косвенно требует от моделей определённой интерпретируемости.

Требования регулятора к безопасности информационных систем (ИС) также применимы к инфраструктуре ML. Это включает:

Защиту среды выполнения модели (серверы инференса) от несанкционированного доступа и модификации.
Контроль целостности артефактов модели и логирование всех действий с ними.
Аудит и мониторинг для выявления аномальной активности, которая может свидетельствовать об атаке.

Ключевой момент: регуляторные требования часто фокусируются на защите данных и инфраструктуры. Задача специалистов — транслировать эти требования на специфические риски ML, такие как отравление данных или состязательные атаки, и документировать принятые меры в рамках общей системы безопасности организации.

Итог: непрерывный цикл безопасности

Безопасность машинного обучения — не разовая настройка, а непрерывный процесс. Угрозы эволюционируют по мере развития самих моделей и методов атак.

Эффективная стратегия строится на трёх принципах:

Сквозной подход. Нельзя защищать только инференс, игнорируя качество и безопасность данных для обучения. Анализ угроз должен покрывать весь конвейер: от сбора данных до развёртывания и мониторинга модели в продакшене.
Глубокое понимание взаимосвязей. Уязвимость на одном этапе создаёт риски на другом. Рецензия кода и анализ данных должны включать поиск потенциальных векторов для future attacks.
Адаптивность. Инструменты и практики необходимо регулярно пересматривать. То, что защищало от вчерашних атак, может оказаться бесполезным завтра. Внедрение регулярного тестирования моделей на устойчивость (adversarial robustness testing) должно стать стандартной практикой.

Защита ML-систем, это синтез классической кибербезопасности, data science и понимания предметной области. Успех определяется не сложностью отдельных инструментов, а целостностью подхода, который рассматривает данные, модель и её окружение как единый объект защиты.