Google делает из правила REP (Robots Exclusion Protocol) стандарт

Google раскрыла исходные коды C++ библиотеки для разбора файлов robots.txt, содержащих правила REP (Robots Exclusion Protocol) для ограничения индексации сайтов роботами поисковых систем. Благодаря своей инициативе компания надеется сделать протокол REP официальном стандартом для веб-сайтов.

Роботы составляют индекс — базу поисковой системы, откуда берутся ссылки для поисковой выдачи Google. Роботы сканируют сайты и добавляют страницы в индекс или убирают их оттуда. Этой индексацией можно управлять: например, разрешать или запрещать роботам обход страниц в специальном файле robots.txt.

REP считался стандартом де-факто 25 лет, что позволяло разработчикам и пользователям интерпретировать протокол по своему усмотрению. Кроме того, протокол никогда не обновлялся, чтобы соответствовать современным реалиям. Сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0 и представив спецификации REP в Инженерный совет Интернета (IETF), компания Google хочет уменьшить различия между реализациями.

Google совместно с автором оригинального протокола, известными веб-мастерами и разработчиками других поисковых систем представила рекомендации для использования Robots Exclusion Protocol. Они не изменяют основные принципы, описанные в документе 25-летней давности, а заполняют пробелы в них с учётом особенностей современной всемирной паутины

Официальная документация позволит веб-мастерам правильно заполнить robots.txt и спрятать часть контента от поисковых роботов.

Вместе с библиотекой Google предложила код утилиты для проверки правильности определения правил в robots.txt. Представленный код используется в рабочих системах Google, выполняющих обработку robots.txt.

Опубликовано: 2 июля 2019

Выбрать программное обеспечение

Напишите запрос на программное обеспечение нам в Viber
+380503703627

Контакты Ай Ти Про
info@itpro.ua
Телефон: +38 (044) 257-24-44