«Если убрать картинку, приукрашивающую стоковыми фото людей в капюшонах, что останется в киберугрозах? Останется текст — гнев, хвастовство, инструкции в чатах. Threat Intelligence, это не только про IoC, но и про мотивацию, и её можно измерить».
Что такое Threat Intelligence и где в ней место для анализа настроений
Классический Threat Intelligence фокусируется на индикаторах компрометации (IoC): IP-адреса, хэши вредоносных файлов, домены командных серверов. Это тактический слой, позволяющий блокировать атаку здесь и сейчас. Однако существует другой, менее структурированный пласт данных — коммуникации в закрытых и открытых источниках: обсуждения на форумах, посты в специализированных блогах, переписка в мессенджерах и чатах.
Здесь рождаются не только технические детали будущих атак, но и настроения их авторов. Агрессия, бахвальство успешной атакой, разочарование от неудачи, сарказм в адрес защитников — всё это не просто эмоциональный шум. Это сигналы, которые можно перевести в данные и использовать для проактивной защиты. Анализ настроений (sentiment analysis) добавляет к «что» и «как» важное «почему» и «с какой интенсивностью».
Представь два поста с одного форума. Один: «Выложил новый инструмент для обхода EDR, тестируйте». Другой: «ЭТИ КОЗЛЫ В [Название компании] ДАЖЕ БАЗОВУЮ ЗАЩИТУ НЕ ПОСТАВИЛИ! КАКОЙ ПРОСТОЙ RDP ДОСТУП ОНИ ОСТАВИЛИ!». Второй пост не только содержит потенциальную угрозу для конкретной организации, но и окрашен сильным негативным аффектом, что резко повышает вероятность скорейших попыток атаки. Классический сбор IoC может пропустить эту угрозу до момента реального инцидента.
Как работает анализ тональности в контексте угроз
Технически, задача сводится к автоматической классификации текстовых фрагментов по эмоциональной окраске: позитивная, негативная, нейтральная. Для общего контекста (отзывы о товарах, новости) используют предобученные модели на больших публичных корпусах. Однако язык угроз специфичен: он полон жаргонизмов, эвфемизмов, угроз, выраженных косвенно, и отсылок к конкретному софту или методам.
Поэтому эффективный анализ требует кастомных моделей, обученных на специализированных датасетах. Такие датасеты собираются вручную экспертами по кибербезопасности, которые размечают тексты с форумов, из утечек переписок хакерских групп, публичных заявлений акторов. Ключевые категории для классификации в threat intelligence отличаются от стандартных:
- Враждебность/Угроза: Прямые или завуалированные угрозы в адрес организаций, стран, отдельных лиц. Часто сопровождается ненормативной лексикой.
- Бахвальство/Тщеславие: Описание успешных атак, демонстрация украденных данных, публикация скриншотов с целью повышения статуса в сообществе. Может сочетаться с позитивной тональностью автора по отношению к себе.
- Разочарование/Фрустрация: Жалобы на сложность защиты цели, неудачные попытки, поломку инструментов. Указывает на возможные пробелы в атакуемом периметре или на этап рекогносцировки.
- Технический/Нейтральный: Обсуждение инструментов, уязвимостей, методов без выраженной эмоциональной окраски. Ценность таких сообщений — в IoC и TTP (тактиках, техниках и процедурах).
- Сарказм/Насмешка: Косвенная оценка действий защитников или конкурентов. Может маскировать серьёзные намерения.
Практическое применение: от проактивного обнаружения до оценки рисков
Приоритизация угроз и таргетирование
Система, совмещающая извлечение именованных сущностей (организации, продукты, имена сотрудников) с анализом тональности, способна автоматически выделять наиболее опасные сигналы. Сообщение, где негативный сентимент связан с упоминанием конкретного банка или государственного органа, получает высший приоритет для анализа Службой безопасности. Это позволяет быстрее запускать процедуры проверки и усиления защиты потенциальной цели.
Тректоринг активности группировок
Изменение эмоционального фона в коммуникациях связного актора может быть индикатором смены его тактики. Например, переход от агрессивных угроз к саркастичным насмешкам может означать, что группа столкнулась с серьёзными препятствиями и переходит к более изощрённым или долгосрочным методам. Резкий всплеск позитивных настроений (бахвальство) после периода затишья часто предвещает публикацию новой утечки данных или анонс мощного инструмента.
Обогащение профиля угрозы
В классическую таксономию угроз (актор, мотивация, возможности, TTP) анализ настроений добавляет измерение «эмоциональной вовлечённости» и «напряжённости». Это позволяет строить более объёмные и точные профили. Группировка, чьи коммуникации последовательно агрессивны и направлены на критическую инфраструктуру, представляет собой иной уровень риска, чем группа, чьи обсуждения носят преимущественно технический и нейтральный характер, даже если их технический уровень сопоставим.
Техническая реализация и сложности
Внедрение sentiment analysis в пайплайн Threat Intelligence — задача для Data Science-команды, тесно взаимодействующей с аналитиками угроз. Процесс выглядит так:
- Сбор и подготовка данных: Использование парсеров и API для сбора текста с релевантных платформ (учёт специфики access-токенов, обход антибот-защиты). Очистка от HTML-разметки, эмодзи, нормализация сленга и опечаток.
- Создание размеченного датасета: Эксперты по кибербезопасности вручную присваивают категории (враждебность, бахвальство и т.д.) тысячам сообщений. Это самая ресурсоёмкая часть.
- Обучение модели: Чаще всего используются архитектуры на основе BERT или его lightweight-аналогов (например, distilled версии), дообученные на собственном датасете. Для экономии вычислительных ресурсов на инференсе модель можно quantize.
- Интеграция в пайплайн: Обученная модель разворачивается как микросервис. Пайплайн обработки сырых данных из источников направляет текст через этот сервис, получая на выходе метку тональности и оценку уверенности. Эти метки добавляются как дополнительные атрибуты к событиям в SIEM или платформе Threat Intelligence.
- Обратная связь и дообучение: Аналитики оценивают корректность автоматической разметки в реальных условиях. Ложные срабатывания и пропуски становятся новыми примерами для периодического дообучения модели, что позволяет адаптироваться к эволюции языка угроз.
Основные сложности:
- Контекст и ирония: Фраза «Отличная работа, ребята из [Отдел ИБ]» в хакерском чате с высокой вероятностью является сарказмом, а не похвалой. Стандартные модели это не уловят.
- Эволюция языка: Сленг, названия новых инструментов, мемы — всё это быстро меняется, требуя постоянного обновления словарей и датасетов.
- Мультиязычность: Угрозы исходят из разных стран. Необходимы модели, работающие не только с русским и английским, но и, например, с китайским, португальским, арабским языками.
- Качество источников: Шумные данные (спам, флуд, off-topic обсуждения) могут значительно снижать точность анализа.
Пример интеграции в процессы ИБ российских организаций
Рассмотрим кейс крупного финансового института, подпадающего под требования 152-ФЗ и регуляторов ФСТЭК. Его SOC (Центр мониторинга и реагирования) использует систему управления угрозами. К ней подключены каналы мониторинга открытых и условно-открытых источников.
Раньше аналитик вручную просматривал сотни сообщений в день, пытаясь вычленить угрозы. После внедрения NLP-пайплайна с анализом настроений процесс изменился:
- Автоматический скрипнг собирает сообщения с тематических ресурсов.
- Текст проходит через кастомную модель, обученную на датасете из хакерских обсуждений.
- Сообщения с меткой «высокая враждебность» и содержащие в себе Named Entities (название банка, его бренды, имена топ-менеджеров) автоматически попадают в тикет с высоким приоритетом.
- Одновременно система проверяет, не упоминаются ли в этих сообщениях конкретные уязвимости или методы (например, «SQL-инъекция в личном кабинете»), и если да — обогащает тикет этой информацией.
- Аналитик SOC получает не просто сырой текст, а структурированный инцидент-кандидат с предварительной оценкой критичности на основе эмоциональной окраски и контекста. Это сокращает время на анализ с часов до минут.
Кроме того, накопленные данные о сентименте используются для отчётности перед руководством и регуляторами. Графики, показывающие всплески агрессивных упоминаний организации в преступной среде, становятся весомым аргументом для обоснования бюджета на новые средства защиты или проведения внеплановых учений.
Этические и правовые аспекты
Работа с открытыми данными, даже если они размещены на сомнительных форумах, должна проводиться в правовом поле. Мониторинг публично доступной информации, как правило, легитимен. Однако важно соблюдать границы: не пытаться получать доступ к закрытым разделам под чужими учётными данными, не участвовать в провокационных обсуждениях, не скачивать и не распространять конфиденциальные данные, которые могут быть выложены в таких источниках.
В российском контексте также необходимо учитывать законодательство о персональных данных (152-ФЗ). Если в процессе анализа автоматически извлекаются и сохраняются ФИО или иные персональные данные физических лиц (например, сотрудников), на такие операции должен быть законный basis. Обычно это или обработка обезличенных данных, или обеспечение безопасности организации как законный интерес оператора.
Будущее: за эмоциями — не только текст
Направление развивается от чистого текстового анализа к мультимодальному. Угрозы всё чаще озвучиваются в видеороликах или аудиосообщениях. Анализ тона голоса, интонации, невербальных компонентов в видео (жесты, мимика) станет следующим шагом для создания более полной картины намерений и эмоционального состояния источника угрозы.
Кроме того, развивается предиктивный анализ. Комбинируя данные о сентименте с исторической активностью группировок и их TTP, можно строить модели, прогнозирующие не только вероятность атаки, но и её потенциальный вектор (например, переход от словесных угроз к DDoS-атаке) или выбранную жертву.
Sentiment analysis перестаёт быть экзотическим экспериментом и становится инструментом, который дополняет тактическую разведку стратегическим пониманием психологического ландшафта угроз. В мире, где за каждой атакой стоит человек или группа людей, понять их мотивацию и эмоции — значит получить преимущество, выходящее далеко за рамки блокировки IP-адреса.