Скрытые данные: как утекают секреты госсектора

“Государственные секреты редко утекают через шпионов в плащах. Они выходят сами, потому что никто не считает их секретами до того, как это станет скандалом. Процесс утечки системный: от мнимого удобства и старого ПО до простого незнания правил, как их писать.”

Где искать то, чего не должно быть на виду

Представьте обычный сайт госоргана: структура, новости, документы в формате DOC или PDF. Проблема не в самих документах, а в том, что происходит с ними перед публикацией. Большинство инцидентов с утечкой чувствительных данных происходят не из-за взлома, а из-за публикации файлов, в которых остались скрытые слои информации.

Типичные источники утечек:

История изменений документа (Track Changes в Word). Автор правит проект приказа, вносит правки, комментирует спорные моменты коллегами. Затем документ сохраняют как финальный PDF и выкладывают. Но если экспорт сделан без очистки, все правки, комментарии и даже удалённые фрагменты могут быть извлечены из файла.
Метаданные файлов. Каждый документ содержит скрытую служебную информацию: автор, организация, дата создания, путь к файлу на диске, имена предыдущих авторов, название проекта. Для внутреннего документа отдела ФСБ это может быть «Проект_мероприятий_по_объекту_Х_финал_исправленный_Сидоров.docx». Такое название, попав в метаданные опубликованного PDF, становится публичным.
Встроенные объекты и скрытые листы. В таблице с открытыми данными о расходах один лист видимый, а второй, с детализацией по закрытым статьям, может быть просто скрыт, но остаётся в файле. Или в презентации, где последний слайд с контактами ответственных лиц помечен как «не для печати», но технически доступен.
Данные в формах и шаблонах. На сайтах госзакупок публикуют сканы подписанных документов. Часто эти сканы — результат заполнения цифрового шаблона. Иногда данные из заполняемых полей (ИНН, паспортные данные представителя) сохраняются в PDF не как текст, а как отдельный невидимый слой, который можно извлечь парсингом.

Технические причины: почему это происходит снова и снова

Причины укоренены в устаревших процессах и инструментах.

Наследие офисных форматов

Форматы DOCX, XLSX — это, по сути, zip-архивы, содержащие XML и медиафайлы. При каждом сохранении программа может оставлять предыдущие версии содержимого или фрагменты из других документов, если использовалось копирование. Средства очистки встроены в офисные пакеты, но их использование не регламентировано и не автоматизировано.

Сценарий: сотрудник готовит справку, копирует таблицу из внутреннего отчёта с грифом «Для служебного пользования» в новый документ. Копируется не только видимая часть, но и стили, связи, возможно, данные со скрытых строк. При публикации очищается только видимое содержимое.

Автоматизация без проверки контента

Многие госсайты имеют автоматические разделы «Документы» или «Открытые данные». Файлы загружаются через CMS, которая не анализирует их содержимое на наличие скрытых данных. Ответственность за проверку перекладывается на сотрудника, у которого нет ни времени, ни компетенции для глубокого аудита файла.

Например, CMS принимает PDF, сгенерированный из Word через стандартный принтер Microsoft Print to PDF. Этот драйвер по умолчанию не удаляет метаданные и не «выпекает» документ, оставляя возможность извлечь исходный текст и комментарии.

Недостаток специализированных инструментов

В арсенале российского госсектора есть средства криптографической защиты информации (СКЗИ) и межсетевые экраны, но практически нет массовых инструментов для «санитарной обработки» документов перед публикацией. Нет утверждённых методик, обязательных к применению.

Между тем, существуют как платные, так и открытые решения. Простой скрипт на Python с библиотекой `python-docx` или `PyPDF2` может автоматически проходить по всем файлам в директории, удалять метаданные, скрытые листы и комментарии, а затем сохранять «очищенную» версию. Но внедрение таких скриптов требует понимания проблемы на уровне технического руководства.

[КОД: Пример скрипта на Python для базовой очистки метаданных из PDF с помощью PyPDF2]

Регуляторный вакуум и его последствия

152-ФЗ «О персональных данных» и требования ФСТЭК фокусируются на защите информации от внешнего доступа: шифрование каналов, антивирусы, разграничение прав. Но они почти не регулируют процесс подготовки несекретной, но чувствительной информации к публикации.

В приказах ФСТЭК нет чёткого требования: «Перед размещением документа в открытом доступе оператор обязан провести его проверку на наличие скрытых данных (метаданных, истории изменений, скрытых листов) с использованием автоматизированных средств». Нет и типовых форм актов о такой проверке.

Это создаёт парадокс: за утечку персональных данных через взлом базы последуют санкции, а за утечку тех же данных, «забытых» в метаданных опубликованного PDF, ответственности часто никто не несёт. Нет состава нарушения, потому что не было нарушения режима защиты — файл был опубликован легально.

В итоге, защита от такого типа утечек держится на сознательности отдельного сотрудника и случайных внутренних инструкциях, которые редко обновляются.

Практические риски: от персональных данных до гостайны

Какие данные чаще всего «утекают» таким способом?

Персональные данные сотрудников. В шаблонах документов, в свойствах файла как «Автор», в скрытых ячейках таблиц с расчётом зарплат, приложенных к документам о госзакупках.
Служебная переписка и процесс согласования. Комментарии «Согласовать с ФСБ», «Коллеги из управления Y против» в истории изменений раскрывают внутренние конфликты и структуру принятия решений.
Технические данные систем. В приложениях к техзаданиям на закупку ПО иногда встречаются скриншоты или схемы внутренних сетей с IP-адресами, опубликованные без ретуши.
Информация с грифом ДСП. Самая опасная категория. Может оказаться в документе по ошибке, быть скопированной из внутреннего шаблона, а затем опубликована в составе, например, судебного решения или ответа на запрос гражданина.

Реальный риск, это не единичная находка, а возможность системного сбора. Злоумышленник может написать парсер, который скачивает все новые документы с сайтов судов, госзакупок и органов власти, извлекает из них метаданные и скрытый текст, а затем агрегирует данные. Так из сотен невинных файлов складывается детальная картина.

Тип документа	Что может быть раскрыто	Источник утечки
Техническое задание на закупку	Схема сети, модели используемого оборудования, имена ответственных администраторов	Встроенное изображение в DOCX, не удалённое при конвертации
Протокол совещания (PDF)	Список участников с контактами, спорные мнения, вычеркнутые пункты решений	История изменений исходного Word-документа
Отчёт по открытым данным (XLSX)	Детализированные финансовые показатели по закрытым статьям	Скрытые листы или строки в таблице
Скан подписанного заявления	Паспортные данные заявителя, подпись	Данные из заполняемой PDF-формы, сохранённые в виде текстового слоя

Что можно сделать: от инструкций до автоматизации

Решение требует комплексного подхода на уровне политики, а не разовых действий.

1. Разработка внутреннего регламента

Необходим обязательный для всех отделов документ — «Порядок подготовки документов к публикации в открытом доступе». В нём должны быть:

Чёткий список типов информации, запрещённых к публикации (ПДн, служебные пометки, грифированные данные, IP-адреса).
Пошаговые инструкции по очистке файлов в основных форматах (DOC/DOCX, XLS/XLSX, PDF) с помощью имеющегося ПО. Например, как использовать в Word функцию «Инспектор документов».
Требование конвертировать файлы в «плоские», нередактируемые форматы перед публикацией, например, в PDF/A.
Определение ответственного лица за финальную проверку каждого публикуемого файла.

2. Внедрение технических средств контроля

Инструкции недостаточно. Нужна автоматизация.

Пресет публикации в CMS. Настройка системы управления контентом так, чтобы все загружаемые файлы определённых типов автоматически проходили через скрипт очистки. Или чтобы CMS блокировала загрузку файлов, в метаданных которых есть ключевые слова из чёрного списка (например, «ДСП», «секретно»).
Проверка на staging-окружении. Перед публикацией на основной сайт файлы должны выкладываться на тестовый портал, доступный только ответственным. Там можно провести финальную выборочную проверку.
Использование специализированного ПО. Существуют как коммерческие продукты класса DLP, так и opensource-инструменты для анализа и очистки документов. Их можно интегрировать в процесс подготовки контента.

[КОД: Пример конфигурации простого веб-хука, который проверяет загружаемый PDF на наличие скрытого текста]

3. Обучение и повышение осведомлённости

Проблему нельзя решить, если рядовой специалист, готовящий справку, не понимает рисков. Обучение должно быть практическим: показать на реальных (учебных) файлах, как из опубликованного «чистого» документа извлекаются служебные комментарии и метаданные.

Важно сместить акцент с «запрета» на «культуру безопасной публикации». Это не дополнительная бюрократия, а неотъемлемая часть работы с документами.

Заключение

Угроза утечки секретных данных через их легальную публикацию — системная слабость. Она существует на стыке человеческого фактора, устаревших процессов и пробелов в регулировании. Пока не появится жёсткое требование регулятора о mandatory check каждого публикуемого файла, ситуация будет улучшаться точечно и медленно. Между тем, технические средства для решения проблемы доступны уже сейчас. Их внедрение требует не столько бюджета, сколько осознания того, что граница защиты проходит не по периметру сети, а по строке «Сохранить как» в окне офисной программы.