Топ-20 символов по частоте (из текста во вкладке Анализ)
Формула Шеннона
Компактная запись: \(H(X)=-\sum_x p(x)\log_2 p(x)\) (биты на символ при двоичном логарифме).
В развёрнутом виде: H(X) = −Σ p(x) · log₂(p(x)). Единица измерения — биты. Максимальная энтропия = log₂(N) для N уникальных символов (равномерное распределение). Реальный русский текст: ~4.5 бит/символ. Английский: ~4.2 бит/символ.
Детекция шифрования
Зашифрованные и сжатые данные имеют энтропию близкую к 8 бит/байт (максимум для байта). Открытый текст — 3.5-5 бит/байт. Исполняемые файлы — 5-7 бит/байт. Если энтропия файла > 7.5 — скорее всего зашифрован или упакован.
Компрессибельность
Если реальная энтропия H значительно меньше максимальной (log₂(N)), данные можно сжать. Компрессибельность ≈ 1 − H/H_max. Файл из одного символа: H=0, компрессия 100%. Случайные байты: H≈8, компрессия 0%.