Deepfake-звонки: как распознать мошенничество по голосу

«Звонки-подделки с голосом руководства, это уже не фантастика, а вполне работающая угроза. Знание технологии на уровне ‘звук синтезирован’ недостаточно. Нужно разобраться в трёх слоях: как звук делается, как это звучит, и — главное — какие типовые сценарии используют злоумышленники, чтобы обойти любую бдительность. Часто проверка на deepfake сводится к ‘а не робот ли говорит’, но реальный атакуемый слышит убедительный, живого человека с интонациями и даже ошибками. Надо искать артефакты не в голосе, а в сценарии разговора.»

Как работает голосовой deepfake: синтез, клонирование и адаптация в реальном времени

Популярное понимание сводится к тому, что записывается голос человека, а потом нейросеть его воспроизводит. Это только часть процесса. На практике используются три взаимосвязанных метода, которые различаются по сложности и доступности.

Полный синтез голоса с нуля

Здесь нейросеть генерирует речь не конкретного человека, а просто речь. Такие системы обучают на огромных массивах записей разных дикторов, и они могут говорить любой текст. Голос получается чистым, но нейтральным, ‘дикторским’. Для атаки под конкретного человека этот метод подходит плохо, но его могут использовать для первого звонка с автоответчика, где голос ‘менеджера’ или ‘службы безопасности’ должен быть просто официальным, а не персонализированным.

Клонирование голоса целевой личности

Это основной метод для атак под руководство. Для обучения модели нужно от 30 секунд до 5 минут чистого голоса целевого человека. Источником служат записи выступлений на совещаниях, подкасты, видео-интервью, которые можно найти в открытом доступе. Современные модели могут создать достаточно точную копию тембра, интонационных паттернов и даже манерных особенностей (например, характерное покашливание или частое использование слов1). Время на создание такой модели сократилось до часов.

Адаптация в реальном времени

Это самый опасный сценарий. Атакующий в режиме реального времени говорит своим голосом, а система мгновенно преобразует его речь, делая её похожей на голос клонированной модели. Атакующий контролирует интонацию, паузы, эмоциональную окраску в диалоге, что делает разговор максимально естественным. Это технология voice conversion, которая уже доступна не только государственным спецслужбам, но и в виде подпольных сервисов.

Чем deepfake-звонок отличается от обычного мошенничества

Классический телефонный мошенник играет по шаблонному сценарию: представляется банком, службой поддержки, использует давление и спешку. Его голос — просто инструмент. В случае с deepfake атака направлена на подрыв доверия внутри конкретной организации, используя её же социальные связи.

Внутреннее знание. Мошенник может знать лишь общие данные. Deepfake–атака часто готовится с разведкой: злоумышленники изучают структуру компании, имена сотрудников, стиль общения руководителя через соцсети или сливы.
Контекст разговора. Вместо абстрактного ‘у вас проблема с картой’ звонок происходит в рамках рабочих процессов: ‘срочно нужен доступ к резервному контуру’, ‘переведи деньги по договору, который мы обсуждали вчера’. Контекст выглядит правдоподобным.
Эмоциональный отклик. Голос начальника, даже синтезированный, вызывает инстинктивную реакцию подчинения и желание выполнить поручение быстро, не перепроверяя. Давление исходит не от незнакомца, а от внутренней иерархии.

Артефакты голоса: на что обращать внимание

Современные модели оставляют всё меньше чисто технических артефактов. ‘Роботизированность’, металлический призвук или неестественные паузы между словами — признаки устаревших систем. Но некоторые нюансы могут выдать подделку.

Фон и качество. Запись для обучения модели часто берут из публичных источников, где есть фоновый шум (аплодисменты, гудел, эхо зала). Синтезированный голос может воспроизводиться ‘чисто’, без этого фона, что создаёт диссонанс: голос человека, который якобы звонит из машины или кабинета, звучит стерильно, как запись.
Обработка дыхания. Некоторые модели плохо синтезируют вдохи и выдохи в естественных местах, либо делают их слишком однообразными и ритмичными.
Сложные согласные и эмоции. Особенно сложны для генерации звуки в состоянии сильного эмоционального возбуждения (раздражение, паника, смех). Подделка может ‘сползать’ на нейтральный тон в такие моменты или искажать звуки.
Отсутствие ‘паразитов’. Если ваш руководитель в живой речи часто использует слова-паразиты (‘короче’, ‘значит’), а в звонке говорит идеально гладкими предложениями, это повод задуматься.

Главное — не полагаться только на звук. Одиночный артефакт можно списать на плохую связь. Совокупность признаков и, что важнее, сценарий разговора — более надёжные индикаторы.

Типовые сценарии атак и алгоритм проверки

Атакующие используют ограниченный набор рабочих сценариев, которые основаны на социальной инженерии и давлении временем. Их знание помогает распознать угрозу до того, как вы начнёте искать артефакты в голосе.

Сценарий 1: Срочный финансовый перевод

Звонок от ‘директора’ или ‘главного бухгалтера’. Суть: ‘Сейчас нужно срочно перевести N суммы на счёт контрагента. Договор уже готов, я его подписал, но секретарь болеет/система не работает. Сделай всё сейчас, отчёт предоставим потом’. Ключевые маркеры: срочность, обход стандартных процедур (проверка договора, второй подписи), ссылка на технические или человеческие проблемы как оправдание для отклонения от регламента.

Что делать: Вежливо сообщить, что для перевода необходим номер и дата договора или внутреннего распоряжения, и вы сейчас поднимете его в системе. Если ‘начальник’ начинает давить или говорит, что ‘нет времени на бюрократию, это подрывает доверие’, это почти стопроцентный признак атаки. Настоящий руководитель в критической ситуации, как правило, даст хоть какие-то реквизиты для проверки.

Сценарий 2: Требование выдать доступ или данные

‘Это Иван Иванович из безопасности. У нас срочная проверка/инцидент. Мне нужен твой доступ к системе X или пароль от учётной записи для диагностики’. Вариация — звонок от ‘технического директора’ с просьбой продиктовать одноразовый код из смс или от приложения-аутентификатора.

Что делать: Никогда и никому не диктовать коды двухфакторной аутентификации. Это абсолютное правило. Запрос на доступ должен быть оформлен через тикет-систему с утверждением. Ответ: ‘Я создам тикет и направлю его вам на утверждение по стандартной процедуре. Если ситуация чрезвычайная, пусть ваше руководство свяжется с моим непосредственным руководителем для санкции’. Легитимный сотрудник службы безопасности такой ответ поймёт.

Сценарий 3: Подтверждение ‘секретного’ действия

‘Я, Петров. Ты помнишь, мы обсуждали вчера тот конфиденциальный проект Y? Так вот, нужно начать миграцию данных. Запусти скрипт на сервере, вот команда…’. Здесь используется внутренний контекст, который может быть частично скомпрометирован, и атака направлена на выполнение вредоносных команд.

Что делать: Запросить подтверждение по альтернативному, заранее согласованному каналу. Например: ‘Иван Иванович, для запуска таких операций у нас требуется подтверждение письмом с корпоративной почты или сообщением в рабочем мессенджере. Отправьте, пожалуйста, туда же эту команду’. Если атакующий владеет только телефонным deepfake, он не сможет дублировать запрос.

Практические инструкции для организации

Защита от таких атак, это не только бдительность сотрудников, но и внесение изменений в регламенты.

Установите правило двойного подтверждения для финансовых операций и выдачи доступов. Любое устное распоряжение, отклоняющееся от стандартного процесса, должно быть подтверждено через второй канал связи (корпоративная почта, мессенджер с проверенным аккаунтом, личный визит). Это должно быть формализовано.
Проведите обучение с примерами. Не рассказывайте абстрактно о ‘deepfake’. Разыграйте с сотрудниками типовые сценарии на учениях, дайте им услышать, как могут звучать подобные звонки (используйте безвредные примеры синтеза).
Введите кодовые слова или фразы для экстренных ситуаций. Это может быть вопрос, на который знает ответ только настоящий человек (‘Как звали вашу первую собаку?’ — но не ‘мать девичья’, так как это можно найти в соцсетях). Лучше использовать динамические методы: ‘Проверь последнюю цифру в номере тикета, который я создал вчера в 15:00’.
Ограничьте публичную голосовую информацию руководства. Проинструктируйте руководителей о рисках публичных выступлений в открытых записях. Для критически важных переговоров можно использовать защищённые линии связи с криптофонами, где голос кодируется.
Рассмотрите технические решения. Существуют системы анализа голосового трафика в реальном времени, которые ищут признаки синтеза. Они не дают 100% гарантии, но могут стать дополнительным рубежом, особенно для сотрудников, работающих с финансами или критической инфраструктурой.

Что делать, если звонок уже состоялся и вы выполнили указание

Если возникло постфактум подозрение или вы осознали ошибку:

Немедленно сообщите в службу безопасности компании и своему реальному руководителю. Не скрывайте это из 1за стыда.
Если операция была финансовой — срочно свяжитесь с банком по утверждённым каналам экстренной связи для попытки отмены транзакции.
Если были выданы доступы — немедленно инициируйте их блокировку и смену паролей для всех связанных систем.
Зафиксируйте все детали звонка: номер, время, содержание разговора, фон, особенности голоса. Это поможет расследованию и предупреждению коллег.

Главная мысль: угроза голосового deepfake переводит кибербезопасность из области чисто технических мер в область социальных договорённостей и регламентов. Самый надёжный фильтр, это не детектор синтеза, а процедура, которую сложно обойти одним убедительным звонком, как бы хорошо он ни звучал.