В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей
Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц. Сканирование показало, что в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API. Всего в архиве зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код web-страниц и успешно прошедших проверку (учитывались только действующие учётные данные, которые позволили успешно подключиться к связанным с ними сервисам). 63% ключей и паролей повторно использовались на нескольких страницах. Например, … Читать далее В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей
