Гари Иллис из Google делится нетрадиционным, но действительным методом централизации правил robots.txt в CDN.

  • Файлы Robots.txt можно централизовать в CDN, а не только в корневых доменах.
  • Веб-сайты могут перенаправлять robots.txt из основного домена на CDN.
  • Этот неортодоксальный подход соответствует обновленным стандартам.

В недавней публикации на LinkedIn аналитик Google Гэри Ильиес поставил под сомнение давнее убеждение о размещении файлов robots.txt.

На протяжении многих лет общепринятым мнением было то, что файл robots.txt веб-сайта должен находиться в корневом домене (например, example.com/robots.txt).

Однако Иллис уточнил, что это не является абсолютным требованием, и раскрыл менее известный аспект протокола выключения роботов (REP).

Гибкость файла Robots.txt

Файл robots.txt не должен быть расположен в корневом домене (example.com/robots.txt).

Согласно Ильису, разрешено иметь два отдельных файла robots.txt, размещенные на разных доменах один на основном веб-сайте, а другой — в сети доставки содержимого (CDN).

Illyes объясняет, что веб-сайты могут централизовать свой файл robots.txt в CDN, одновременно контролируя сканирование своего основного сайта.

Например, веб-сайт может иметь два файла robots.txt: один по адресу https://cdn.example.com/robots.txt, а другой по адресу https://www.example.com/robots.txt.

Этот подход позволяет поддерживать единственный полный файл robots.txt на CDN и перенаправлять запросы из основного домена в этот централизованный файл.

< /p>

Ilyes отмечает, что сканеры, соответствующие RFC9309, будут следовать перенаправлению и использовать целевой файл как файл robotstxt для выходного домена.

Оглядываясь на 30 лет роботов.txt

Поскольку в этом году протокол исключения роботов празднует свое 30-летие, Illyes’ откровение подчеркивает, как веб-стандарты продолжают развиваться.

Он даже размышляет, нужно ли назвать файл “robots.txt,” намекая на возможные изменения в том, как руководствуются директивами обхода.

Как это может вам помочь

После Illyes’ инструкции могут помочь вам следующими способами:

<ол>

  • Централизованное управление: Консолидируя правила robots.txt в одном месте, вы можете поддерживать и обновлять директивы сканирования в вашем веб-присутствии.< /li>
  • Улучшенная согласованность: Единственный источник правды для правил robots.txt уменьшает риск противоречивых директив между вашим главным сайтом и CDN.
  • Гибкость: Этот подход дает возможность более адаптивных конфигураций, особенно для сайтов со сложной архитектурой или тех, которые используют несколько субдоменов и CDN.
  • Упрощенный подход к управлению файлами robots.txt может улучшить как управление сайтом, так и поисковую оптимизацию.