Как большие данные изменили баланс власти: почему IT-гиганты знают о нас больше государства

«Мы привыкли думать, что государство знает о нас всё. Но сегодня реальная картина нашей жизни — от привычек до мыслей — формируется не в кабинетах чиновников, а в дата-центрах нескольких технологических корпораций. Их власть над данными — не следствие злого умысла, а результат фундаментального сдвига в том, как устроено взаимодействие человека с миром.»

От переписи населения к постоянному потоку поведения

Традиционные государственные данные, это снимки, сделанные с большими интервалами. Перепись населения, налоговые декларации, данные о регистрации автомобилей или недвижимости. Эти данные структурированы, но статичны и обновляются раз в год, а то и в десятилетие. Они отвечают на вопрос «что есть?» в конкретный момент времени.

FAANG-компании (Meta, Apple, Amazon, Netflix, Google и их аналоги) работают с принципиально иной моделью. Они собирают не снимки, а непрерывный поток. Каждый поисковый запрос, лайк, просмотр сериала, добавление товара в корзину, перемещение с телефоном в кармане, это событие в реальном времени. Этот поток отвечает на вопросы «что происходит прямо сейчас?», «как меняется поведение?» и, что критически важно, «почему?». Алгоритмы выявляют не только действия, но и намерения, сомнения, эмоциональный фон.

Государство знает, что у вас есть квартира. Платформа знает, как часто вы смотрите видео о ремонте, какие обои добавляете в «избранное», в какое время суток активнее ищете ипотечные калькуляторы и после какой рекламы закрываете вкладку.

Добровольная детализация против обязательной отчетности

Государственные данные часто собираются принудительно или в рамках обязательных процедур. Это вызывает сопротивление, желание дать минимум информации или исказить её. Данные соцсетей и сервисов пользователь отдаёт добровольно и с поразительной щедростью, часто даже не осознавая объёма и глубины передаваемой информации. Мотивация проста: в обмен на данные мы получаем мгновенное удобство, персонализацию, чувство связи, развлечение.

Этот обмен несимметричен. Пользователь делится сырым, необработанным поведенческим потоком. Компания возвращает ему готовый, отполированный сервис, создавая иллюзию равного партнёрства. Механизмы сбора настолько вплетены в пользовательский опыт (однокликовая авторизация, умные ленты, голосовые помощники), что сам акт передачи данных становится невидимым.

Горизонтальная интеграция против вертикальных «слоёв»

Государственные органы работают в вертикалях. Налоговая служба видит финансовые потоки, МВД — данные о правонарушениях, Росстат — экономическую статистику. Обмен данными между этими ведомствами технически сложен, часто ограничен законом о персональных данных и требует громоздких межведомственных соглашений. Картина получается фрагментированной.

Технологическая платформа стремится к горизонтальной интеграции в рамках одной экосистемы. Аккаунт в Google связывает ваш поиск, почту, историю перемещений на картах, просмотры на YouTube, документы в Drive и покупки в Play Маркет. Amazon знает, что вы искали, что купили, что посмотрели на Prime Video и что спросили у Alexa. Это создаёт целостный цифровой профиль, где данные из одной сферы объясняют и предсказывают поведение в другой.

Экономика внимания как двигатель сбора

Для государства данные — в первую очередь инструмент управления, контроля и планирования. Для FAANG-компаний данные, это сырьё, из которого производится их основной продукт: внимание пользователя. Чем точнее профиль, тем эффективнее можно удерживать внимание (персонализированная лента) и монетизировать его (таргетированная реклама).

Это создаёт прямую экономическую заинтересованность в постоянном увеличении глубины, детализации и актуальности собираемых данных. Каждый новый сигнал — новый параметр для оптимизации алгоритмов удержания. Государство такой прямой финансовой мотивации не имеет. Его задача — собрать достаточно для выполнения функций, а не максимизировать вовлечённость гражданина.

Технологическое превосходство и культура данных

Ключевое отличие — в технологическом стеке и кадрах. Крупные IT-корпорации создали и продолжают развивать инфраструктуру для работы с эксабайтами данных в реальном времени: распределённые системы хранения, фреймворки для потоковой обработки, инструменты машинного обучения. Их штат укомплектован лучшими инженерами и data scientist, для которых работа с большими данными — основная компетенция.

Государственные ИТ-системы, особенно унаследованные, часто построены на реляционных базах данных, рассчитанных на структурированные отчёты, а не на поведенческие потоки. Скорость внедрения новых технологий ограничена бюрократическими процедурами, бюджетированием и кадровым голодом. Культура принятия решений, основанных на A/B-тестах и дашбордах в реальном времени, чужда большинству госорганов.

Что это меняет для регуляторики и 152-ФЗ?

Сложившаяся ситуация ставит перед регуляторами в сфере информационной безопасности, такими как ФСТЭК, и законодателями, реализующими 152-ФЗ «О персональных данных», принципиально новые вызовы.

Смещение периметра защиты. Если раньше основным риском считалась утечка структурированных баз данных из госорганов или компаний, то теперь главный объём ПДн «живёт» в облачных экосистемах транснациональных корпораций, чьи дата-центры физически находятся за пределами юрисдикции РФ. Требования о локализации серверов (152-ФЗ) — лишь первый шаг в борьбе за цифровой суверенитет, который не решает проблему де-факто контролируемых извне платформ.
Новые классы данных. Законодательство часто отстаёт от технологий. 152-ФЗ оперирует понятием «персональные данные», но слабо регулирует сбор и обработку метаданных, поведенческих паттернов, выводных данных (inferred data) — той самой информации, которая и составляет основную ценность для платформ. Является ли IP-адрес вкупе с историей поиска ПДн? А вектор эмбеддинга, сгенерированный нейросетью на основе ваших сообщений?
Асимметрия в аудите и контроле. Проверить, как российский банк хранит сканы паспортов, относительно просто. Проверить, какие именно алгоритмы машинного обучения применяет глобальная социальная сеть для обработки данных российских пользователей и куда передаются производные данные, — задача на порядок сложнее. Это требует от регуляторов компетенций, сопоставимых с таковыми у самих корпораций.

Возможные векторы развития

Ситуация не является тупиковой. Ответом может стать развитие альтернативных технологических экосистем, которые изначально строятся в парадигме суверенитета данных. Это не просто копии западных аналогов, а платформы с архитектурой, где данные пользователя по умолчанию шифруются на его устройстве, а агрегация и аналитика возможны только в деперсонифицированном и федеративном виде.

Другой вектор — ужесточение регуляторных требований не к хранению, а к алгоритмической прозрачности. Если платформа хочет работать на рынке, она должна раскрывать, какие данные используются для построения моделей и как принимаются решения, влияющие на пользователя (например, модерация контента или выдача кредита).

Третий путь — изменение самой модели взаимодействия. Развитие стандартов децентрализованной идентификации (Self-Sovereign Identity), где пользователь сам хранит свои цифровые аттестаты и предоставляет их сервисам на время для конкретной операции, без создания постоянного детализированного профиля на стороне платформы.

Баланс сил в мире данных уже сместился. Вопрос теперь не в том, вернётся ли он обратно к государству, а в том, сумеют ли государства и общества выработать новые правила игры, которые поставят сбор и использование поведенческих данных под осмысленный контроль, защитив не только приватность, но и цифровой суверенитет. Игнорирование этого дисбаланса делает любые меры по защите персональных данных внутри национальной юрисдикции похожими на укрепление замка, в то время как ключи от него уже давно хранятся у другого владельца.