GPT: от статических правил к контекстному анализу алертов в SIEM

«Необходимость выстраивать сложные правила корреляции для обнаружения инцидентов похожа на попытку понять книгу по отдельным буквам. GPT даёт возможность читать эту книгу целиком, обнаруживая невидимые для формальной логики связи между событиями.»

Проблема статичных правил корреляции

Классические системы SIEM работают на основе заранее определённых правил корреляции. Правило, которое сигнализирует о инциденте при нескольких неудачных попытках входа за определённый промежуток времени, хорошо справляется с явными атаками, но не видит сложных сценариев. Такие сценарии состоят из действий, которые в отдельности легитимны, но вместе представляют угрозу. Это приводит к двум главным проблемам: огромному количеству ложных срабатываний и пропуску целевых атак, которые разворачиваются медленно.

Ложные срабатывания не просто загружают систему — они создают «усталость алертов». Аналитики SOC, которые ежедневно просматривают сотни нерелевантных уведомлений, постепенно теряют внимание и могут пропустить реальную угрозу, скрытую в этом шуме. Попытки исправить ситуацию созданием более сложных и узких правил только усложняют поддержку и повышают хрупкость системы. Для решения требуется подход, который работает не с формальными признаками, а с семантикой и контекстом событий.

Как GPT анализирует логи: от токенов к контексту

Языковые модели типа GPT не выполняют программный код правил. Они работают с текстом, разбитым на токены — фрагменты слов. Их сила — в способности находить статистические связи между этими токенами, выявляя паттерны, полученные на основе обучения на огромных массивах данных.

Когда сырой лог событий поступает в модель как текст, она воспринимает не просто значения полей отдельно друг от друга, а целостную картину. Например, запись «Успешный вход: учетная запись ‘svc_sql_backup’, хост ‘FIN-DB-01’, IP 10.1.5.22, 02:30» для правила корреляции — это лишь факт успешной аутентификации. GPT анализирует это в контексте и может обнаружить аномалии:

Временной контекст: 02:30 — нетипичное время для активности сервисной учетной записи, которая обычно работает по расписанию в 23:00.
Поведенческий контекст: Учетная запись ‘svc_sql_backup’ предназначена для запуска задач, а не для интерактивного сеанса.
Сетевой контекст: IP 10.1.5.22 может относиться к сегменту офисных рабочих станций, а не к сегменту серверов.

[ИЗОБРАЖЕНИЕ: Схематичное сравнение обработки. Слева: поток логов → статическое правило («если X, то Y») → бинарный вывод (инцидент/нет). Справа: поток логов + контекст → языковая модель → связное текстовое описание с оценкой риска и обоснованием.]

Способность восстанавливать причинно-следственные связи между разрозненными событиями, разнесёнными во времени, меняет парадигму. Сложная атака — это цепочка: разведка, начальное проникновение, закрепление, перемещение. GPT может, анализируя расширенное временное окно, собрать эту цепочку и сформулировать связную нарративную сводку.

Архитектура интеллектуального слоя триажа

Система не заменяет SIEM, а надстраивает над ним интеллектуальный обработчик. Её работа состоит из трёх последовательных этапов.

Сбор и обогащение контекста

Качество вывода модели напрямую зависит от качества и полноты входных данных. Этап — основа всего.

Агрегация и нормализация. Логи из разрозненных источников приводятся к единому формату.
Глубокое обогащение. К каждому событию добавляются метаданные: для IP-адреса — принадлежность к внутренней/внешней сети, признак доверенного диапазона; для пользователя — роль, отдел, стандартный график работы; для хоста — его критичность, владелец.
Формирование сценарного окна. Для анализируемого алерта система автоматически собирает все связанные события за определённый период до и после, создавая целостный «снимок» активности.
Подготовка промпта. Структурированные и обогащенные данные помещаются в строгий текстовый шаблон, который четко ставит задачу перед моделью.

Семантический анализ и классификация

Промпт отправляется в языковую модель. Используется API промышленных моделей, развернутых в контролируемом контуре. Это обязательное требование для соблюдения 152-ФЗ.

Промпт даёт модели точные инструкции:

Сформулировать краткую сводку: описать последовательность событий.
Присвоить категорию риска: «Высокий», «Средний», «Низкий», «Ложное срабатывание».
Предоставить обоснование: указать критерии, на основе которых присвоена категория.
Предложить шаги по реагированию: конкретные действия для проверки или блокировки.

Интеграция и автоматизация ответа

Структурированный вывод модели парсится и становится событием для системы:

Обновление тикета. В SOAR или ITSM-системе алерт автоматически получает приоритет, описание и рекомендации.
Интеллектуальная эскалация. События с меткой «Ложное срабатывание» могут быть закрыты автоматически. Алёрты «Высокого риска» попадают в приоритетную очередь.
Запуск плейбуков. Если вывод содержит конкретные инструкции, система SOAR может выполнить их через интеграции.

Типы угроз, где подход наиболее эффективен

Система проявляет себя в сценариях, где критически важен контекст и последовательность.

Тип угрозы / активности	Ограничения правил SIEM	Что анализирует языковая модель
Аномальный доступ к конфиденциальным данным	Срабатывание по формальному порогу количества операций. Не отличает работу аналитика от автоматического сканирования.	Связь между учетной записью, временем, паттерном запросов и контекстом задачи. Может отделить рутинную задачу от признаков эксфильтрации.
Злоупотребление привилегиями	Генерация алертов на любые действия из «опасного» списка, что создает шум.	Сравнение действий с индивидуальным историческим профилем. Выделяет аномалии: вход в нерабочее время, использование нетипичных команд.
Медленные целевые атаки	События разделены часами или днями. Корреляционные правила с коротким временным окном не видят связи.	Анализ длинных временных рядов. Восстанавливает цепочки событий.
Использование легитимных инструментов	Отдельные вызовы легитимны. Обнаружение требует анализа сложных цепочек.	Семантический анализ командной строки: распознавание закодированных скриптов, последовательности команд для отключения защиты.

Ограничения, риски и требования к внедрению

Внедрение подобной системы — это инженерный проект.

Абсолютная зависимость от качества данных. Без полноценных, обогащенных логов со всей инфраструктуры система неработоспособна. Это требует серьёзных вложений в инфраструктуру сбора и нормализации данных.

Требования регуляторов и локализация. Согласно 152-ФЗ, персональные данные и критическая информация не могут обрабатываться за пределами страны. Решение — использование локализованных моделей или API провайдеров, обеспечивающих обработку данных в соответствующих дата центрах.

Контроль над выводом и «галлюцинации». Языковые модели могут генерировать убедительно звучащие, но ошибочные выводы. Стратегия внедрения должна быть итеративной:

Пилотный режим: Модель только предоставляет вывод, который проверяется аналитиком.
Обучение на собственных данных: На основе лога подтвержденных/отклоненных решений создается специализированный датасет для дообучения модели.
Частичная автоматизация: Только после достижения высоких метрик точности модель получает право автоматически закрывать ложные срабатывания.

Производительность и экономика. Анализ контекста для каждого алерта — ресурсоемкая операция. Необходимо проводить нагрузочное тестирование и рассматривать гибридные архитектуры.

[ИЗОБРАЖЕНИЕ: График, показывающий соотношение объёма событий и затрат на их обработку при использовании статических правил, гибридной системы и интеллектуального триажа на основе модели.]

Практический план для запуска пилота

Начинать следует с фокусировки на одной проблеме.

Выберите целевой сценарий. Определите тип алертов с максимальным объёмом и самым низким процентом реальных инцидентов.
Обеспечьте полный контекст. Настройте сбор и обогащение всех необходимых для этого сценария логов.
Разработайте и оттестируйте промпт. Сформулируйте четкие инструкции для модели. Протестируйте промпт на архивных данных.
Запустите режим параллельного анализа. Настройте pipeline, в котором каждый алерт по выбранному сценарию проходит через модель. Её вывод подается аналитику как рекомендация. Собирайте статистику согласия/несогласия.
Интегрируйте в рабочий процесс. Сначала просто встраивайте вывод модели как комментарий в тикет. Затем автоматизируйте создание тикетов с предзаполненными полями.

Конечная цель — трансформация роли SOC-аналитика из оператора, отсеивающего шум, в следователя, который начинает работу с уже проанализированным кейсом, приоритизированной гипотезой и готовым планом первоначальных действий.