Google рекомендует размещать ресурсы веб-сайта в CDN или субдоменах, чтобы сохранить бюджет сканирования основного сайта для лучшего индексирования.

  • Googlebot кэширует ресурсы в течение 30 дней, независимо от настроек кэша HTTP.
  • Использование CDN для ресурсов может помочь сохранить бюджет сканирования вашего сайта.
  • Блокировка ресурсов в robots.txt может повредить способности Google воспроизводить и ранжировать страницы.

Центр поиска Google запустил новую серию под названием “Crawling December”, чтобы предоставить представление о том, как Googlebot сканирует и индексирует веб-страницы.

В этом месяце Google еженедельно будет публиковать новую статью, в которой будут исследованы различные аспекты процесса сканирования, которые не часто обсуждаются, но могут оказать значительное влияние на сканирование веб-сайта.

Первое сообщение в серии охватывает основы сканирования и проливает свет на важные, но менее известные детали того, как Googlebot обрабатывает ресурсы страницы и управляет бюджетами сканирования.

Основы сканирования

Современные веб-сайты являются сложными из-за усовершенствованного JavaScript и CSS, поэтому их труднее сканировать, чем старые страницы, содержащие только HTML. Googlebot работает как веб-браузер, но по другому графику.

Когда Googlebot посещает веб-страницу, он сначала загружает HTML с основного URL-адреса, который может ссылаться на JavaScript, CSS, изображения и видео. Затем служба веб-визуализации Google (WRS) использует Googlebot для загрузки этих ресурсов для создания окончательного просмотра страницы.

Вот шаги по порядку:

<ол>

  • Начальная загрузка HTML
  • Обработка службой веб-визуализации
  • Получение ресурсов
  • Последняя конструкция страницы
  • Управление сканированием бюджета

    Сканирование дополнительных ресурсов может уменьшить бюджет сканирования основного веб-сайта. Чтобы помочь с этим, Google говорит, что “WRS пытается кэшировать каждый ресурс (JavaScript и CSS), который используется на страницах, которые он отображает.”

    Важно отметить, что кэш WRS работает до 30 дней и на него не влияют правила кэширования HTTP, установленные разработчиками.

    Эта стратегия кэширования помогает сэкономить бюджет сканирования сайта.

    Рекомендации

    Эта публикация дает владельцам сайтов советы по оптимизации своего бюджета на сканирование:

    <ол>

  • Уменьшить использование ресурсов: Используйте меньше ресурсов, чтобы создать хорошее взаимодействие с пользователем. Это помогает сэкономить бюджет сканирования во время воспроизведения страницы.
  • Ресурсы хоста отдельно: разместите ресурсы на другом имени хоста, например CDN или субдомен. Это может помочь перенести бремя бюджета сканирования с основного сайта.
  • Умно используйте параметры очистки кэша: Будьте осторожны с параметрами очистки кэша. Изменение URL-адресов ресурса может заставить Google проверить их повторно, даже если содержимое одно и то же. Это может потратить ваш бюджет на сканирование.
  • Кроме того, Google предупреждает, что блокировка сканирования ресурсов с помощью robots.txt может быть рискованной.

    Если Google не может получить доступ к необходимому ресурсу для визуализации, у него могут возникнуть проблемы с получением содержимого страницы и соответствующим рейтингом.

    Инструменты мониторинга

    Команда Search Central говорит, что лучший способ увидеть, какие ресурсы сканирует Googlebot, это проверить необработанные журналы доступа сайта.

    Вы можете идентифицировать Googlebot по его IP-адресу, используя диапазоны, опубликованные в документации разработчика Google’.

    Почему это важно

    Эта публикация объясняет три ключевых момента, влияющих на то, как Google находит и обрабатывает содержимое вашего сайта’

    • Управление ресурсами оказывает непосредственное влияние на ваш бюджет сканирования, поэтому размещение сценариев и стилей на CDN может помочь сохранить его.
    • Google кэширует ресурсы в течение 30 дней независимо от ваших настроек кэша HTTP, что помогает сэкономить ваш бюджет сканирования.
    • Блокировка критически важных ресурсов в файле robots.txt может привести к негативным последствиям, поскольку Google не сможет правильно воспроизвести ваши страницы.

    Понимание этих механизмов помогает оптимистам и разработчикам принимать лучшие решения по размещению ресурсов и доступности – выбор, непосредственно влияющий на то, насколько хорошо Google может сканировать и индексировать их сайты.