Голосовые ассистенты хранят данные без защиты, требуемой законом

«Мы привыкли к бытовому удобству, но не задумываемся, что происходит с нашими случайными фразами после обработки. Голосовые ассистенты — не просто исполнители команд, это система сбора акустических данных. И эти данные часто обрабатываются и хранятся способами, которые не соответствуют требованиям 152-ФЗ для персональных данных. Тут важна не паранойя, а техническое понимание жизненного цикла аудиозаписи, от микрофона до удаленного хранилища и возможного анализа.»

Как работает ассистент: от ключевого слова до сервера

Голосовой ассистент всегда слушает, но не всегда записывает. Постоянный мониторинг в режиме ожидания выполняется локально, на устройстве, с помощью алгоритмов распознавания ключевой фразы, например, «Алиса» или «Окей, Google». Эта локальная обработка требует минимальных вычислительных ресурсов и, как правило, не передает данные в сеть до активации.

Как только система детектирует ключевое слово, она переключается в режим активной записи и начинает передавать аудиопоток на удаленные серверы для дальнейшего распознавания речи (ASR — Automatic Speech Recognition) и обработки естественного языка (NLP — Natural Language Processing). Именно этот сегмент и представляет основной интерес с точки зрения безопасности данных.

Что происходит с аудио после команды

После того как команда выполнена, аудиозапись не исчезает бесследно. Запросто можно предположить, что она удаляется сразу, но на практике её жизненный цикл сложнее и дольше. Даже если интерфейс ассистента показывает, что запись «удалена», это часто означает лишь удаление из пользовательского интерфейса, а не физическое стирание с серверов.

Аудиофайлы сохраняются в облачных хранилищах компании-разработчика. Сроки хранения определяются внутренней политикой и могут составлять от нескольких месяцев до нескольких лет. Эти данные используются для двух основных целей:

Улучшение моделей распознавания речи. Записи транскрибируются, анонимизируются (или деидентифицируются) и попадают в обучающие выборки для нейросетей, повышая их точность для всех пользователей.
Контекстный анализ и профилирование. Совокупность запросов одного пользователя позволяет строить поведенческий профиль: интересы, привычки, распорядок дня, примерный состав семьи.

Для этих процессов записи часто проходят через этап аннотирования, где их могут прослушивать и размечать живые люди — так называемые «ассистенты по качеству». Этот факт прямо указан в пользовательских соглашениях, но редко доходит до сознания пользователя.

Уязвимости в цепочке передачи и хранения данных

Транспортное шифрование против шифрования на стороне хранилища

Передача аудиопотока с устройства на сервер почти всегда защищена транспортным шифрованием (TLS). Это защищает данные от перехвата в момент передачи. Однако после попадания на сервер аудиозаписи часто хранятся без сквозного или сквозного (end-to-end) шифрования.

Это означает, что данные на серверах хранения находятся в расшифрованном или доступном для внутренней расшифровки виде. Уязвимость возникает на уровне хранения и внутреннего доступа. Инцидент с компрометацией учетных записей сотрудников или внутренней системной уязвимостью может привести к утечке «сырых» аудиозаписей.

Отсутствие сегментации и минимальных привилегий

В архитектуре облачных сервисов ассистентов редко реализуется принцип наименьших привилегий в достаточной мере. Данные миллионов пользователей могут храниться в общих пулах, а не изолированно. Системы, которым необходим доступ для анализа (например, движок рекомендаций), часто имеют слишком широкие права для чтения первичных аудиоданных, а не только агрегированных метаданных.

Данные также могут реплицироваться между различными дата-центрами для отказоустойчивости, что увеличивает поверхность атаки.

Несоответствие требованиям регуляторов

С точки зрения 152-ФЗ «О персональных данных», голосовая биометрия (запись голоса) и транскрибированные фразы, позволяющие идентифицировать человека, одн