Google рекомендует размещать ресурсы веб-сайта в CDN или субдоменах, чтобы сохранить бюджет сканирования основного сайта для лучшего индексирования.
- Googlebot кэширует ресурсы в течение 30 дней, независимо от настроек кэша HTTP.
- Использование CDN для ресурсов может помочь сохранить бюджет сканирования вашего сайта.
- Блокировка ресурсов в robots.txt может повредить способности Google воспроизводить и ранжировать страницы.
Центр поиска Google запустил новую серию под названием “Crawling December”, чтобы предоставить представление о том, как Googlebot сканирует и индексирует веб-страницы.
В этом месяце Google еженедельно будет публиковать новую статью, в которой будут исследованы различные аспекты процесса сканирования, которые не часто обсуждаются, но могут оказать значительное влияние на сканирование веб-сайта.
Первое сообщение в серии охватывает основы сканирования и проливает свет на важные, но менее известные детали того, как Googlebot обрабатывает ресурсы страницы и управляет бюджетами сканирования.
Основы сканирования
Современные веб-сайты являются сложными из-за усовершенствованного JavaScript и CSS, поэтому их труднее сканировать, чем старые страницы, содержащие только HTML. Googlebot работает как веб-браузер, но по другому графику.
Когда Googlebot посещает веб-страницу, он сначала загружает HTML с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-визуализации Google (WRS) использует Googlebot для загрузки этих ресурсов для создания окончательного просмотра страницы.
Вот шаги по порядку:
<ол>
Управление сканированием бюджета
Сканирование дополнительных ресурсов может уменьшить бюджет сканирования основного веб-сайта. Чтобы помочь с этим, Google говорит, что “WRS пытается кэшировать каждый ресурс (JavaScript и CSS), который используется на страницах, которые он отображает.”
Важно отметить, что кэш WRS работает до 30 дней и на него не влияют правила кэширования HTTP, установленные разработчиками.
Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.
Рекомендации
Эта публикация дает владельцам сайтов советы по оптимизации своего бюджета на сканирование:
<ол>
Кроме того, Google предупреждает, что блокировка сканирования ресурсов с помощью robots.txt может быть рискованной.
Если Google не может получить доступ к необходимому ресурсу для визуализации, у него могут возникнуть проблемы с получением содержимого страницы и соответствующим рейтингом.
Инструменты мониторинга
Команда Search Central говорит, что лучший способ увидеть, какие ресурсы сканирует Googlebot, это проверить необработанные журналы доступа сайта.
Вы можете идентифицировать Googlebot по его IP-адресу, используя диапазоны, опубликованные в документации разработчика Google’.
Почему это важно
Эта публикация объясняет три ключевых момента, влияющих на то, как Google находит и обрабатывает содержимое вашего сайта’
- Управление ресурсами оказывает непосредственное влияние на ваш бюджет сканирования, поэтому размещение сценариев и стилей на CDN может помочь сохранить его.
- Google кэширует ресурсы в течение 30 дней независимо от ваших настроек кэша HTTP, что помогает сэкономить ваш бюджет сканирования.
- Блокировка критически важных ресурсов в файле robots.txt может привести к негативным последствиям, поскольку Google не сможет правильно воспроизвести ваши страницы.
Понимание этих механизмов помогает оптимистам и разработчикам принимать лучшие решения по размещению ресурсов и доступности – выбор, непосредственно влияющий на то, насколько хорошо Google может сканировать и индексировать их сайты.