Почему в RL adversarial-атаки опаснее, чем в компьютерном зрении

«Многие думают, что если робота нельзя обмануть картинкой, значит он надёжен. Но в реальном мире, особенно в RL, противник атакует не глаза, а мозг — саму систему принятия решений, заставляя её деградировать с каждым шагом. Защитить алгоритм от таких атак, это не просто добавить фильтр, а перестроить логику обучения с нуля.»

Почему в RL противник опаснее, чем в классификации

В компьютерном зрении adversarial-атака, это искажение пикселей на входном изображении, незаметное для человека, но меняющее вывод модели. Атакуют статичный объект на одном шаге. В reinforcement learning всё иначе. Здесь модель, это агент, который взаимодействует с миром через последовательность действий и получает за них награду. Его цель — максимизировать общий выигрыш за эпизод.

Атака на RL-агента не стремится мгновенно изменить его текущее решение, например, с «повернуть налево» на «прямо». Вместо этого, гораздо опаснее заставить агента накапливать маленькие ошибки, которые в долгосрочной перспективе сведут всю стратегию к нулю. Противник может слегка искажать наблюдения среды (state) на каждом шаге так, что агент начинает действовать чуть менее оптимально. Эти микроотклонения, несущественные в моменте, за десятки шагов складываются в катастрофу: робот уезжает в кювет, торговый алгоритм сливает капитал, система управления энергосетью вызывает каскадное отключение.

Такая атака носит последовательный характер. Она использует временную структуру задачи RL: текущее действие влияет на будущие состояния и награды. Противник, воздействуя на процесс наблюдения, получает рычаг управления не только над текущим выбором, но и над траекторией обучения агента в целом. Именно это делает RL особенно уязвимым.

Типы атак: от белого ящика до реального мира

Методы атак на RL-системы можно классифицировать по степени знания противника о внутреннем устройстве агента.

Атаки по модели (Model-based Attacks). Это самый мощный класс, «белый ящик». Злоумышленник знает архитектуру нейросети агента, её веса, алгоритм обучения и среду. Он может точно рассчитать градиент функции потерь по отношению к входным наблюдениям и внести минимальные искажения, максимально снижающие награду агента. Такой уровень доступа редкость, но возможен при утечке моделей или в исследовательских целях для тестирования уязвимостей.

Атаки без модели (Model-free / Black-box Attacks). Противник не имеет доступа к параметрам модели. Он взаимодействует с агентом как с чёрным ящиком: подаёт наблюдения, получает действия, и по этой обратной связи строит свою атаку. Методы включают обучение суррогатной модели, которая аппроксимирует поведение цели, или использование эволюционных алгоритмов для поиска возмущений. Эти атаки реалистичнее, так как не требуют взлома системы.

Атаки на политику против атак на функцию ценности. В RL агент может быть реализован через политику (policy), которая напрямую говорит, какое действие выбрать в данном состоянии, или через функцию ценности (value function), оценивающую полезность состояний. Атаковать можно и то, и другое. Искажение наблюдений, которые сбивают функцию ценности, приводит к тому, что агент неправильно оценивает будущую выгоду и выбирает заведомо проигрышные траектории.

Физические атаки в RL. Это переход от цифрового искажения пикселей в симуляторе к воздействию на реальные сенсоры робота. Например, наклейки на дорожные знаки для беспилотника или акустический шум, искажающий данные лидара. В RL это усугубляется тем, что даже временное воздействие может нарушить всю последовательность действий, а не просто одно распознавание.

Стратегии защиты: не только фильтрация шума

Наивный подход — попытаться отфильтровать adversarial-шум на входе, как в классификации. Но в RL этого недостаточно, потому что атака может быть адаптивной и использовать динамику среды.

Обучение с помехами (Adversarial Training)

Основной метод. Агента обучают не в чистой среде, а в условиях, где часть наблюдений намеренно искажается атакующим алгоритмом. В процессе обучения агент сталкивается с разнообразными adversarial-возмущениями и учится вырабатывать устойчивую политику. Ключевой момент — качество «учителя-противника». Если он слаб, агент не станет по-настоящему робастным. Поэтому часто используется minimax-подход: во время обучения периодически «прокачивается» и атакующий, чтобы создавать всё более изощрённые помехи.

Регуляризация и сглаживание (Regularization & Smoothing)

Эти техники делают функцию принятия решений агента менее чувствительной к малым изменениям на входе. Например, можно добавлять в функцию потерь штраф за слишком большие градиенты выхода политики по отношению к входным данным. Или применять методы вроде randomized smoothing, когда для принятия окончательного решения используется усреднённый вывод от множества слегка зашумленных версий наблюдения.

Обнаружение аномалий и восстановление состояний

Вместо того чтобы пытаться полностью нейтрализовать атаку, система может научиться её детектировать. Например, обучается дополнительная модель, которая предсказывает следующее состояние среды на основе текущего состояния и действия агента. Если реальное полученное наблюдение сильно отклоняется от предсказания, это может быть признаком атаки. В этом случае система может переключиться на безопасную fallback-политику или попытаться восстановить истинное состояние, используя историю предыдущих шагов.

Использование иерархических и модульных архитектур

Монолитные нейросетевые политики особенно уязвимы. Разделение системы на модули с чёткими интерфейсами может ограничить распространение атаки. Например, низкоуровневый модуль отвечает за стабилизацию и базовые движения, а высокоуровневый — за планирование маршрута. Атака на модуль планирования может быть скомпенсирована стабильной работой низкоуровневого контроллера. Это напоминает принцип избыточности и разделения ответственности в критических системах.

Почему это важно для российских регуляторов и 152-ФЗ

Закон №152-ФЗ о персональных данных обязывает операторов обеспечивать безопасность обработки. Системы, использующие reinforcement learning, начинают применяться в областях, связанных с персональными данными: персонализированная медицина (подбор терапии), финтех (кредитные скоринги и торговые боты), таргетированная реклама. Если такая система управляется adversarial-атакой, это может привести к разглашению чувствительных данных, финансовым потерям или причинению вреда.

Требования ФСТЭК к безопасности информационных систем, особенно классов К1 и К2, подразумевают устойчивость к целенаправленным воздействиям. Внедрение RL в системы управления технологическими процессами (АСУ ТП) на критической инфраструктуре делает вопрос adversarial robustness не теоретическим, а практическим. Стандарты пока не содержат прямых указаний на защиту ИИ-моделей, но общий принцип обеспечения устойчивости функционирования полностью применим. Разработчикам и интеграторам стоит заранее закладывать робастность в архитектуру таких систем, рассматривая adversarial-атаки как один из вероятных векторов угроз.

Проблема усугубляется тем, что современные методы сертификации и аттестации не умеют адекватно тестировать устойчивость AI-компонентов. Пентест классической ИБ-инфраструктуры отличается от тестирования нейросетевой модели на adversarial examples. Это создаёт правовой и технический пробел, который в будущем потребует разработки новых методик оценки соответствия.

Что делать разработчику прямо сейчас

Пока регуляторная база догоняет технологию, ответственность лежит на создателях систем.

Примите, что атаки, это вопрос «когда», а не «если». Не рассматривайте RL-модель в отрыве от среды её эксплуатации. Анализ угроз должен включать сценарии целенаправленного искажения входных данных.
Тестируйте на adversarial robustness с самого начала. Внедрите в цикл разработки этап, где обученная модель прогоняется не только на тестовом наборе, но и под атаками (например, с использованием библиотек вроде Adversarial Robustness Toolbox). Измеряйте падение производительности.
Рассмотрите adversarial training как обязательный этап. Это самый действенный, хотя и ресурсозатратный метод. Начните с простых атак (FGSM, PGD), чтобы оценить уязвимость, затем усложняйте.
Архитектурные решения важны. Оцените, можно ли разбить систему на модули, добавить детекторы аномалий или дублирующие каналы восприятия для повышения устойчивости.
Документируйте принятые меры. При подаче системы на аттестацию по требованиям ФСТЭК или при оценке соответствия 152-ФЗ наличие документации по проведённому тестированию на adversarial robustness станет серьёзным аргументом.

Adversarial robustness в reinforcement learning, это не просто академическая задача. Это практический барьер на пути внедрения автономных систем в реальные, враждебные среды. Игнорирование этой проблемы сегодня создаёт риски завтрашнего дня, когда отказ такой системы повлечёт не просто проигрыш в игре, а материальный ущерб или угрозу безопасности.