Google робить із правила REP (Robots Exclusion Protocol) стандарт
Google робить із правила REP (Robots Exclusion Protocol) стандарт
Google розкрила вихідні коди C++ бібліотеки для розбору файлів robots.txt, що містять правила REP (Robots Exclusion Protocol) для обмеження індексації сайтів роботами пошукових систем. Завдяки своїй ініціативі компанія сподівається зробити протокол REP офіційним стандартом для веб-сайтів.
Роботи складають індекс — базу пошукової системи, звідки беруться посилання для пошукової видачі Google. Роботи сканують сайти і додають сторінки в індекс або прибирають їх звідти. Цією індексацією можна керувати: наприклад, дозволяти або забороняти роботам обхід сторінок у спеціальному файлі robots.txt.
REP вважався стандартом де-факто 25 років, що дозволяло розробникам та користувачам інтерпретувати протокол на власний розсуд. Крім того, протокол ніколи не оновлювався, щоб відповідати сучасним реаліям. Зробивши доступним свій парсер файлу robots.txt під ліцензією Apache License 2.0 і представивши специфікації REP до Інженерної ради Інтернету (IETF), компанія Google хоче зменшити різницю між реалізаціями.
Google спільно з автором оригінального протоколу, відомими веб-майстрами та розробниками інших пошукових систем надала рекомендації для використання Robots Exclusion Protocol. Вони не змінюють основні принципи, описані в документі 25-річної давності, а заповнюють прогалини в них з урахуванням особливостей сучасного всесвітнього павутиння
Офіційна документація дозволить веб-майстрам правильно заповнити robots.txt та сховати частину контенту від пошукових роботів.
Разом із бібліотекою Google запропонувала код утиліти для перевірки правильності визначення правил у robots.txt. Цей код використовується в робочих системах Google, що виконують обробку robots.txt.