Тихий сбор: как соцсети используют личные видео для обучения ИИ психиатрии

«Речь о том, как видео вроде «разговор с самим собой» или «мой день с тревогой» становятся сырьём для алгоритмов. Пользователь думает, что делится опытом, а на самом деле маркирует данные для тренировки моделей. Это создаёт новый уровень цифровой уязвимости — психическое состояние становится техническим параметром, который можно измерить и, возможно, использовать.»

Тихая революция в сборке датасетов

Раньше для обучения модели распознавать депрессию или биполярное расстройство требовались клинические исследования: долгий поиск участников, подписание согласий, строгий протокол. Сегодня всё проще. Нейросети учатся на публичном контенте. Когда человек снимает видео о своём подавленном состоянии, трудностях с концентрацией или перепадах настроения, он не просто ищет поддержку. Он, сам того не зная, создаёт идеально аннотированный пример. Алгоритмы социальных платформ уже сегодня анализируют миллионы таких роликов, вычленяя паттерны. И эти паттерны — новые данные для моделей, которые скоро могут применяться далеко за пределами развлекательного приложения.

Что именно забирают алгоритмы

Модель смотрит не только на то, что вы говорите. Анализу подвергается комплекс сигналов, который человек вряд ли осознаёт как диагностический:

Паралингвистические признаки: темп речи, количество пауз, интонационные срывы, монотонность.
Мимика и микровыражения: частота и характер улыбок, движения бровей, напряжение окологлазничных мышц.
Метаданные и поведенческие паттерны: время публикации (например, регулярные посты в 3–4 часа ночи), частота публикаций, резкие изменения в тематике контента.
Контекст, заданный самим пользователем: хештеги вроде #депрессия, #тревожность, #СДВГ, #биполярка являются прямой аннотацией для алгоритма. Они связывают визуальный и аудиоряд с конкретной категорией.

Эта совокупность данных в клинических условиях собиралась бы месяцами. В социальных сетях она формируется добровольно и в промышленных масштабах.

От контента к модели: как данные утекают из ленты

Механизм обычно не прямолинеен. Платформа типа TikTok не продаёт напрямую видеоролики. Вместо этого работают более тонкие каналы:

Публичные API для исследований. Учёные и компании получают доступ к анонимизированным, но богатым метаданным и текстовым транскриптам видео через специальные программы для исследователей. Цель декларируется как «изучение трендов» или «совершенствование рекомендательных систем».
Внутренние исследования платформы. Команды data science внутри компании анализируют контент для улучшения удержания пользователей, обнаружения вредного контента или адаптации алгоритмов ранжирования. Полученные в ходе этих исследований модели и паттерны могут позже лицензироваться или использоваться в других продуктах экосистемы.
Покупка готовых датасетов. Сторонние поставщики данных собирают и структурируют публичный контент из соцсетей, очищают его и продают как готовые наборы для обучения ИИ. В описании такого датасета может быть указано: «100 тыс. видеоклипов, аннотированных по эмоциональному состоянию на основе анализа речи и визуала».

исходное видео остаётся на платформе, но его цифровой скелет — векторы признаков — начинает жить собственной жизнью.

Российский контекст и правовое поле

В России этот процесс сталкивается с регуляторным каркасом, прежде всего с 152-ФЗ «О персональных данных». Однако здесь возникает юридический парадокс.

Если пользователь сам публикует информацию о своём психическом состоянии, она считается общедоступными персональными данными (п. 10 ст. 3 152-ФЗ). Обработка таких данных допускается без согласия субъекта, если иное не запрещено законом или самим субъектом. Но ключевой вопрос: является ли биометрическими данными анализ мимики для выявления депрессии? Закон определяет биометрию как сведения о физиологических и биологических особенностях человека, позволяющие установить его личность. Модель, определяющая состояние, личность не устанавливает — значит, формально может не подпадать под самые строгие требования к биометрии.

Это создаёт серую зону. Фактически, самые интимные сведения о здоровье обрабатываются по упрощённому правовому режиму только потому, что человек выложил их в публичный доступ. При этом последствия такой обработки — например, использование обученной модели для скрининга соискателей в HR-отделах некоторых компаний — могут напрямую затрагивать права человека.

Требования ФСТЭК в области защиты информации также ориентированы на иную архитектуру — классические базы данных, а не на распределённое обучение нейросетей на стримах публичного видео. Технически применить существующие предписания к этому процессу сложно.

К чему это приведёт: сценарии применения

Обученные на таких данных модели не останутся в лабораториях. Их интеграция в разные сферы уже началась:

Целевая реклама и контент. Самый очевидный вариант. Алгоритм, определивший склонность к тревожности, может начать предлагать контент о медитации, психотерапевтических услугах или, наоборот, деструктивный контент, эксплуатирующий уязвимое состояние для увеличения вовлечённости.
Предварительный скрининг в телемедицине. Приложения для онлайн-консультаций с психотерапевтом могут использовать анализ видео с камеры для «предварительной оценки состояния» перед приёмом, чтобы направить к нужному специалисту.
HR-технологии. Некоторые системы анализа видеоинтервью заявляют о возможности оценки «стрессоустойчивости» и «эмоциональной стабильности» кандидата по невербальным признакам. Их обучение часто происходит как раз на публичных видео, где люди открыто говорят о стрессе.
Системы безопасности и наблюдения. В логике «проактивной безопасности» может возникнуть идея отслеживать «нестандартное эмоциональное состояние» в публичных местах по камерам с использованием подобных моделей.

Что делать, если не хочешь быть учебным материалом

Полностью выйти из поля зрения алгоритмов в публичном цифровом пространстве почти невозможно. Но можно снизить свою «ценность» как учебного примера:

Пересмотреть публичность аккаунта. Установите настройки приватности «Закрытый аккаунт». Это не гарантия, но серьёзно ограничивает автоматический сбор данных через публичные методы.
Избегать прямой самодиагностики в публичном поле. Хештеги и текстовые описания, явно указывающие на расстройство,, это ключ для алгоритма. Без них связать визуальный паттерн с конкретным диагнозом сложнее.
Осознавать метаданные. Регулярность и время публикаций — тоже сигнал. Разнообразие в графике публикаций добавляет «шума» в ваши поведенческие данные.
Использовать одноразовые/альтернативные аккаунты для обсуждения чувствительных тем. Это изолирует такой контент от основной цифровой личности.

Важно понимать: речь идёт не о том, чтобы молчать о проблемах, а о выборе канала, где ваше откровение не превратится автоматически в строку в тренировочном датасете коммерческой нейросети.

Новая этика цифровой эпохи

Сложившаяся ситуация ставит вопросы, на которые нет готовых ответов. Можно ли считать согласием на использование в тренировке ИИ факт публикации видео на условиях пользовательского соглашения, которое никто не читает? Где грань между общедоступным персональным данным и интимной информацией о здоровье, которая просто оказалась выставленной на всеобщее обозрение?

Технология обогнала не только законодательство, но и общественную дискуссию. Пока мы спорим о cookies и слежке через рекламные идентификаторы, на наших глазах формируется куда более глубокий инструментарий анализа человека — через его непроизвольные поведенческие и физиологические проявления, зафиксированные в момент уязвимости.

Твой аккаунт — возможно, уже часть этого нового, гигантского и молчаливого учебника по клинической психологии, написанного самими пациентами. И вопрос в том, кто будет иметь доступ к этому учебнику и как распорядится полученным знанием.