Открытый доступ к внутренним файлам: как устроена утечка данных

Это не гипотеза, а повседневная реальность: открытый доступ к внутренним файлам проектов стал стандартной уязвимостью, и найти его можно быстрее, чем заварить кофе. Проблема не в злонамеренных хакерах, а в простой человеческой забывчивости и непонимании того, что публичный репозиторий, это улица, а не ваш личный склад.

От артефактов сборки до базы данных: что на самом деле хранят в публичных репозиториях

В публичных репозиториях находят не только исходный код. Чаще всего это побочные продукты разработки и администрирования, которые по ошибке или незнанию были загружены вместе с проектом. Разработчики могут считать их техническим мусором, но для злоумышленника или аудитора это источник уникальной информации.

Например, файл `.env` с настройками подключения к базе данных, включая пароли. Или полная резервная копия базы данных в формате SQL дампа, случайно закоммиченная для тестирования и не удалённая. Файлы конфигурации веб-серверов (nginx, Apache) с реальными доменными именами и внутренними путями, которые раскрывают структуру.

Часто встречаются дампы данных для staging-окружения, логи ошибок с трассировкой стека, в которых видны пути к файлам и иногда фрагменты кода с чувствительной логикой. Нередки и бэкапы целых директорий сайта, включая загрузки пользователей или административные интерфейсы, загруженные “для удобства” на хостинг проекта.

Суть в том, что эти данные редко ищут целенаправленно. Они всплывают в ходе обычного поиска по проектам, когда кто-то пытается найти пример кода или библиотеку. Исключение составляют автоматические сканеры, которые целенаправленно ищут по шаблонам типа `password=`, `secret_key`, расширениям `.sql`, `.tar.gz`.

Семь шагов поиска: от общей идеи до конкретного файла

Поиск уязвимых артефактов, это последовательный процесс сужения области, а не случайный набор запросов. Вот как он выглядит на практике.

1. Определение технологии и характерных следов

Первым делом нужно понять, с чем имеешь дело. Это сайт на популярной CMS, самописный проект на определённом фреймворке или статический генератор? Каждая технология оставляет свои “отпечатки”. Например, WordPress создаёт файлы `wp-config.php`, в Laravel это `.env` и папка `storage`, в Django — `settings.py`. Знание этих маркеров позволяет строить более точные запросы.

2. Поиск репозиториев по домену и связанным ключевым словам

Самый прямой путь — поиск по самому доменному имени компании или проекта в GitHub. Часто в README, описании или даже в коде упоминается официальный сайт. Не ограничивайтесь точным совпадением. Пробуйте варианты: название компании, продукта, старый домен, синонимы, которые могли использовать разработчики в комментариях.

3. Фильтрация по языку программирования и дате

После первичного поиска список может быть большим. Фильтрация по основному языку проекта (PHP, Python, JavaScript) отсечёт множество неподходящих репозиториев. Сортировка по дате последнего обновления — ещё один ключевой фильтр. Активно разрабатываемые проекты с недавними коммитами представляют больший интерес, чем заброшенные пять лет назад, хотя и в старых можно найти актуальные утечки, если данные не менялись.

Примеры запросов для поисковой строки GitHub:

example.com "DB_PASSWORD" language:PHP — поиск упоминаний домена и строк подключения к БД в PHP-проектах.
path:.env SECRET_KEY — поиск значений секретных ключей прямо в файлах окружения.
extension:sql "INSERT INTO" — поиск дампов баз данных по расширению и характерному SQL-синтаксису.

Эти запросы — лишь отправная точка. Их нужно адаптировать под конкретный контекст.

4. Анализ структуры найденных репозиториев

Открыв подозрительный репозиторий, не спешите искать по всему коду. Взгляните на структуру файлов. Наличие папок `backup`, `dump`, `sql`, `config` — красный флаг. Обратите внимание на размер файлов: SQL-дамп или архив с бэкапом весит существенно больше, чем обычный файл с исходным кодом. Просмотр истории коммитов (git log) может показать, что чувствительный файл был добавлен недавно и, возможно, ещё не удалён.

5. Целевой поиск внутри репозитория

Используйте встроенный в интерфейс GitHub поиск по файлам в репозитории (кнопка “Go to file” или поиск с префиксом `path:`). Ищите по ключевым словам: `password`, `secret`, `key`, `token`, `backup`, `dump`. Или по расширениям: `.sql`, `.tar`, `.gz`, `.zip`, `.env`, `.cfg`.

6. Проверка “сырого” содержимого и веток

GitHub отображает содержимое текстовых файлов прямо в интерфейсе. Для бинарных или больших файлов может потребоваться скачивание. Не забудьте проверить другие ветки проекта, кроме `main` или `master`. В ветках `dev`, `staging`, `feature/backup` часто остаются экспериментальные или временные данные, которые забыли удалить.

7. Верификация найденных данных

Найдя строку подключения или набор учётных данных, не спешите с выводами. Нужно проверить, актуальны ли они. Это может быть устаревший дамп тестовой среды или закомментированные примеры из документации. Косвенная проверка — сверить структуру таблиц из SQL-дампа или пути из конфигов с реальным сайтом. Прямое подключение к сторонним системам, это уже нарушение закона.

Цель этапа — подтвердить, что утечка представляет реальный риск, а не является артефактом разработки.

К чему приводит такая находка: сценарии последствий

Обнаружение внутренних данных проекта в открытом доступе, это не абстрактная угроза, а конкретный инцидент информационной безопасности. Последствия зависят от типа утекших данных.

Утечка файлов окружения (.env, config files) с ключами API, токенами доступа к облачным сервисам или базам данных может привести к полному компрометированию инфраструктуры. Злоумышленник получает доступ на тех же уровнях, что и само приложение: может читать и писать в базу, управлять виртуальными серверами, списывать средства с привязанных платёжных аккаунтов.

Попадание в сеть резервной копии базы данных, это прямая утечка персональных данных. В России это немедленно попадает под действие 152-ФЗ. В дампе могут находиться ФИО, телефоны, email, хеши паролей, история заказов, переписка. Для компании это влечёт обязанность уведомить Роскомнадзор и субъектов данных, риск крупных штрафов и репутационный ущерб.

Даже если в SQL-дампе нет персональных данных, а только структура и служебная информация, это всё равно ценный источник для атаки. Зная названия таблиц, поля, логику хранения, можно построить точную и сложную SQL-инъекцию, обойти системы защиты, которые знают только публичный интерфейс.

Утечка исходного кода, особенно с комментариями разработчиков, раскрывает бизнес-логику, скрытые уязвимости, “костыли” и недокументированные возможности. Это позволяет находить уязвимости нулевого дня, которые не видны при чёрном ящичном тестировании.

Ответственность по 152-ФЗ и требования ФСТЭК

С точки зрения российского регуляторика, такая ситуация — классический инцидент утечки информации. Если в открытом доступе оказались персональные данные, оператор обязан выполнить процедуры, предписанные Федеральным законом № 152-ФЗ “О персональных данных”.

В течение 24 часов с момента обнаружения инцидента необходимо направить уведомление в Роскомнадзор. Если утечка может привести к негативным последствиям для субъектов ПДн, их также нужно уведомить. Компания обязана принять меры по устранению последствий и недопущению подобных инцидентов в будущем. Игнорирование этих требований ведёт к административной ответственности и крупным штрафам.

Требования ФСТЭК России, в частности приказы, регулирующие защиту информации в информационных системах, также затрагивают эту область. Они предписывают осуществлять контроль целостности и конфиденциальности информации, в том числе в системах разработки. Несмотря на то, что GitHub может рассматриваться как внешний инструмент, ответственность за обеспечение безопасности данных на всех этапах их жизненного цикла лежит на операторе.

На практике это означает, что политики безопасности компании должны явно регулировать работу с системами контроля версий: какие данные можно коммитить, использование приватных репозиториев, обязательный pre-commit анализ на наличие чувствительной информации, регулярный аудит уже существующих публичных проектов.

Как закрыть брешь: практические меры здесь и сейчас

Обнаружение утечки, это сигнал к действию. Процесс исправления должен быть системным.

Немедленное удаление данных. Удалите скомпрометированные файлы из репозитория. Помните, что просто удаление файла в последнем коммите недостаточно — он останется в истории Git. Необходимо полностью вычистить историю, используя команды типа git filter-branch или BFG Repo-Cleaner, либо, как радикальная мера, удалить репозиторий и создать заново уже без чувствительных данных. Все старые токены, пароли и ключи из утекших файлов нужно считать скомпрометированными и заменить на новые, даже если файл удалён.
Внедрение защитных практик в процесс разработки. Используйте файлы .gitignore для исключения системных и конфигурационных файлов (например, .env, *.log, *.sql, папки vendor/, node_modules/). Внедрите pre-commit хуки, которые сканируют добавляемые файлы на наличие шаблонов, похожих на секреты (например, с помощью инструментов типа TruffleHog или Gitleaks). Храните реальные настройки окружения отдельно — в переменных среды сервера, в защищённых хранилищах секретов, которые предоставляют облачные платформы или инструменты вроде HashiCorp Vault.
Регулярный аудит. Раз в квартал или полгода проводите ручной или автоматизированный аудит всех публичных репозиториев организации. Просто ищите по названию компании и по типовым запросам, описанным выше, чтобы убедиться, что ничего нового не “уплыло”. Автоматизируйте этот процесс с помощью скриптов, использующих GitHub API для поиска по всем репозиториям организации.
Обучение команды. Частая причина утечек — незнание или невнимательность разработчиков. Проведите внутренний обучающий семинар, разберите конкретные кейсы (можно даже смоделированные), объясните риски и правила работы с Git. Чётко пропишите в регламенте, что можно и что нельзя коммитить в публичные репозитории.

Безопасность данных в процессе разработки, это не дополнительная опция, а неотъемлемая часть жизненного цикла. Поиск в GitHub за семь кликов, это лишь инструмент, который показывает, насколько хрупкой может быть эта защита, если о ней не думать на системном уровне.