Анализ миллиарда учётных записей, полученных в результате различных утечек баз пользователей

Опубликована статистика , сформированная на основе анализа коллекции из миллиарда учётных записей, полученных в результате различных утечек баз данных с параметрами аутентификации. Также подготовлены выборки с данными о частоте применения типовых паролей и списки из 1 тыс., 10 тыс., 100 тыс., 1 млн и 10 млн самых популярных паролей, которые могут использоваться для ускорения подбора хэшей паролей.

Некоторые обобщения и находки:

  • Из полученной коллекции в миллиард записей 257 млн были отброшены как повреждённые данные (хаотичные данные в неверном формате) или тестовые учётные записи. После всех фильтраций из миллиарда записей было выделено 169 млн паролей и 293 млн логинов.
  • Самый популярный пароль «123456» встречается около 7 млн раз (0.722% из всех паролей). Далее с заметным отставанием следуют пароли 123456789, password, qwerty, 12345678.
  • Доля тысячи самых популярных паролей составляет 6.607% от всех паролей, доля миллиона самых популярных паролей — 36.28%, а 10 млн — 54%.
  • Средний размер пароля — 9.4822 символов.
  • 12.04% паролей содержат спецсимволы.
  • 28.79% паролей состоят только из букв.
  • 26.16% паролей включают только символы в нижнем регистре.
  • 13.37% паролей состоят только из цифр.
  • 34.41% паролей заканчиваются цифрами, но только 4.522% из всех паролей начинаются с цифры.
  • Уникальными являются только 8.83% паролей, остальные встречаются два и более раза. Средняя длина уникального пароля 9.7965 символов. Только часть из этих паролей представляет хаотичный набор знаков, лишённый смысла, и только 7.082% включают спецсимволы. 20.02% уникальных паролей состоят только из букв и 15.02% только из букв в нижнем регистре при средней длине в 9.36 символов.
  • Зафиксирован набор из качественных паролей с высокой энтропией, которые были похожи по стилю (10-символов, случайная комбинация цифр, прописных и строчных букв, отсутствие спецсимволов, прописные буквы вначале и конце) и использовались повторно. Частота повторного использования была достаточно низка (некоторые из этих паролей повторяются 10 раз), но всё же выше, чем ожидалось для паролей подобного уровня.

Источник: http://www.opennet.ru/opennews/art.shtml?num=53260