PAC-robustness: теория, которая обещает защиту машинного обучения, но не может её обеспечить

“Теория состязательной робастности, это попытка математически описать, почему даже хорошо обученная модель может сломаться от минимальной, но специально подобранной помехи. PAC-robustness даёт формальные гарантии, но они работают в идеализированных условиях, которые редко встречаются в реальных системах, особенно в контексте российских требований по защите информации. Это не инструмент, а скорее теоретический маяк, который показывает, как далеко мы находимся от реальной безопасности.”

Что такое состязательная робастность и зачем она нужна

Со временем стало очевидно, что высокие показатели точности машинного обучения на тестовых наборах данных не гарантируют надёжности в реальных условиях. Модель, которая уверенно распознаёт дорожные знаки на чистых изображениях, может ошибиться, если на знак наклеят почти незаметный для человека стикер. Такая уязвимость — не баг, а фундаментальное свойство многих современных алгоритмов, связанное с тем, как они строят свои решающие границы в многомерном пространстве.

Соста́втельная роба́стность, это способность модели сохранять корректность своих предсказаний при наличии преднамеренно сконструированных входных данных, называемых состязательными примерами. Эти примеры создаются не случайно, а с целью обмануть модель, часто оставаясь практически неотличимыми от нормальных данных для человека. Проблема выходит за рамки академических исследований: в системах биометрической идентификации, анализе документов или автоматическом принятии решений в критической инфраструктуре такие атаки могут иметь серьёзные последствия.

Поэтому недостаточно просто протестировать модель на исторических данных. Нужна теоретическая основа, которая позволила бы давать гарантии её устойчивости. Именно здесь возникает теория PAC-robustness.

PAC-обучение: основа для формальных гарантий

Чтобы понять PAC-robustness, нужно начать с её предшественника — теории PAC-обучения (Probably Approximately Correct). Эта теория, разработанная в 1980-х годах, даёт математический ответ на вопрос: что значит «научиться»?

Ключевая идея PAC — формализация процесса обучения с точки зрения вероятности и точности. Алгоритм считается успешно обучившимся, если с высокой вероятностью (Probably) он достигает малой ошибки (Approximately Correct) на данных, которые не видел во время обучения. Теория связывает между собой:

Сложность модели (емкость гипотез).
Объём обучающих данных.
Желаемый уровень ошибки.
Требуемую уверенность в результате.

PAC-теория заложила основу для статистического обучения, но она рассматривала «честный» мир, где тестовые данные берутся из того же распределения, что и обучающие. Состязательные атаки нарушают это базовое предположение, создавая данные из другого, враждебного распределения.

От PAC к PAC-robustness: добавление помехи

PAC-robustness расширяет классическую теорию, вводя в уравнение «помеху» или «возмущение». Формально, теперь мы требуем, чтобы модель была не просто приблизительно корректной, но и оставалась таковой для любого входа, который находится в пределах заданного «шара» возмущения вокруг любого тестового примера. Этот шар обычно определяется метрикой, например, расстоянием L_p (L2, L∞), которое ограничивает максимальное отклонение входного сигнала.

гарантия PAC-robustness звучит так: с высокой вероятностью, для случайно выбранного тестового примера, модель будет давать правильный ответ не только для него самого, но и для всех слегка искажённых версий этого примера, где искажение не превышает заданной величины ε.

Это качественный скачок в требованиях. Классическое PAC-обучение гарантирует устойчивость к шуму в данных, который носит случайный характер. PAC-robustness пытается гарантировать устойчивость к целенаправленному, наихудшему из возможных в рамках ограничений, шуму.

Математический аппарат и почему гарантии сложно получить

Формально, задача ставится следующим образом. Пусть S — обучающая выборка, D — распределение данных, H — пространство гипотез (моделей). Классический PAC гарантирует, что с вероятностью хотя бы 1−δ, ошибка модели h на распределении D будет не больше ε: R(h) ≤ ε.

В PAC-robustness вводится робастная ошибка R_rob(h). Это вероятность того, что существует возмущение δ в пределах заданного радиуса (||δ|| ≤ ε), такое что модель ошибается на искажённом примере x+δ. Гарантия выглядит как P[ R_rob(h) ≤ ε’ ] ≥ 1−δ, где ε’ — допустимая робастная ошибка.

Основная теоретическая сложность в том, что пространство возможных возмущений вокруг каждой точки огромно даже для небольших ε. Чтобы дать строгую гарантию, необходимо учитывать наихудший случай в этом пространстве для каждой точки, что делает задачу вычислительно сложной. На практике точные гарантии PAC-robustness для нелинейных моделей глубокого обучения получить крайне трудно. Исследования в этой области часто сводятся к поиску верхних оценок робастной ошибки или разработке методов, которые эмпирически повышают устойчивость, но без твёрдых теоретических обещаний.

Практические методы повышения робастности и их связь с теорией

Несмотря на теоретические трудности, индустрия не ждёт строгих доказательств и использует эмпирические методы для защиты моделей. Два наиболее распространённых подхода, это состязательное обучение и формальная верификация.

Состязательное обучение — процесс, при котором в обучающую выборку на лету добавляются сгенерированные состязательные примеры. Модель учится быть устойчивой к конкретным типам атак, используемым при её обучении. Это мощный практический инструмент, но он не даёт PAC-гарантий, так как защищает только от атак, подобных тем, что использовались при тренировке. Противник может найти новый, неизвестный метод обхода.

Формальная верификация пытается подойти ближе к идеалу PAC-robustness. Для заданной модели и входа она математически доказывает, что в пределах определённой области возмущений классификация не изменится. Однако такие методы пока масштабируются только на относительно небольшие модели из-за вычислительной сложности.

PAC-robustness служит для этих методов теоретическим ориентиром. Состязательное обучение можно рассматривать как попытку минимизировать эмпирическую робастную ошибку на обучающей выборке, что является практической аппроксимацией теоретической цели.

Соответствие требованиям регуляторов: ФСТЭК и 152-ФЗ

В контексте российского регулирования, особенно требований ФСТЭК и закона 152-ФЗ о персональных данных, теория состязательной робастности приобретает особое звучание. Регуляторные акты предъявляют жёсткие требования к безопасности информационных систем, включая системы, использующие машинное обучение для обработки критичной информации.

Однако, ни в одном руководящем документе ФСТЭК прямо не упоминаются «состязательные примеры» или «PAC-robustness». Требования носят общий характер: обеспечение целостности, конфиденциальности и доступности информации, защита от несанкционированного доступа и модификации. Применение уязвимых моделей ИИ в системе, обрабатывающей персональные данные или информацию ограниченного доступа, может трактоваться как нарушение этих базовых принципов.

Например, если система автоматического распознавания лиц для контроля доступа может быть обманута состязательным патчем на очках, это прямое нарушение требований к контролю и учёту доступа. Таким образом, хотя теория не прописана в нормах, необходимость обеспечения робастности моделей логически вытекает из существующих требований к защите информации.

Практический вывод для специалиста: при аттестации или проверке системы, использующей ИИ, важно продемонстрировать не только её точность, но и результаты тестирования на устойчивость к целенаправленным искажениям входных данных. Это может стать частью анализа рисков и обоснования выбора средств защиты.

Ограничения и будущее теории

Главный парадокс PAC-robustness заключается в её практической недостижимости для современных сложных моделей. Строгие гарантии требуют предположений, которые часто не выполняются в реальности: точного знания распределения данных, ограниченной сложности модели или фиксированного, неадаптивного противника.

Реальный противник не ограничен одной нормой L_p. Он может использовать семантические преобразования, не укладывающиеся в формальные метрики (например, изменение ракурса объекта), или применять атаки, специфичные для конкретной реализации системы. Кроме того, большинство теоретических результатов получены для задач классификации, в то время как на практике критически важными могут быть системы регрессии, обнаружения аномалий или принятия решений.

Будущее направления, вероятно, лежит в компромиссе. Вместо поиска универсальных гарантий для любой атаки, теория может сместиться в сторону получения гарантий для конкретных, практически релевантных классов угроз. Другой путь — разработка сертифицированных методов, которые для каждой входной точки могут вычислять радиус гарантированной устойчивости, даже если он мал. Это даст практикам измеримый показатель «уровня защиты» модели в каждой конкретной точке, что уже полезнее абстрактной теоремы.

Для российского ИТ-сектора, особенно работающего с госзаказом и критической инфраструктурой, понимание этих ограничений так же важно, как и знание самой теории. Внедрение систем ИИ должно сопровождаться не слепой верой в формальные гарантии, которых может не быть, а глубоким многоуровневым анализом уязвимостей, включающим как теоретические оценки, так и практическое краснокомандное тестирование.