В рамках инициативы по переводу Robots Exсlusion Protocol (REP) в разряд официальных стандартов Google открыл исходный код своего парсера для robots.txt.
В частности, речь идёт о C++ библиотеке, которую системы Google используют для парсинга и сопоставления правил в файлах robots.txt.
Эта библиотека существует уже около 20 лет и содержит фрагменты кода, которые были написаны ещё в 90-х. С тех пор библиотека претерпела изменения: Google узнал больше о том, как вебмастера заполняют файлы robots.txt, и о краевых случаях, которые тоже нужно охватить. Все эти изменения были добавлены в проект спецификации REP, поданный в IETF.
Google также добавил в пакет с открытым исходным кодом инструмент тестирования, чтобы разработчики могли протестировать несколько правил.
Ознакомиться с библиотекой можно в репозитории для парсера robots.txt на GitHub. Своими впечатлениями вебмастера смогут поделиться там же.
Мирант Киев по материалам: /www.searchengines.ru/...
|