Google открыл код парсера файлов robots.txt

Компания Google опубликовала под лицензией Apache 2.0 код С++ библиотеки для разбора файлов robots.txt, содержащий правила (REP, Robots Exclusion Protocol) для исключения контента из области индексации ботами поисковых систем. Одновременно компания Google выступила с инициативой продвижения протокола REP в качестве интернет-стандарта после 25 его существования в роли стандарта де-факто.

Библиотека существует уже около 20 лет и всё это время используется в рабочих системах Google, которым требуется разбор robots.txt. В библиотеке учтены различные нюансы оформления, встречающиеся в обиходе. Вместе с библиотекой также предложен код утилиты для проверки правильности определения правил в robots.txt.

Источник: http://www.opennet.ru/opennews/art.shtml?num=51003