• Многие веб-сканеры неправдиво выдают себя за Googlebot, что может искажать аналитику веб-сайта и тратить ресурсы.
  • Настоящий трафик Googlebot можно проверить с помощью таких инструментов Google, как Search Console и Rich Results Test.
  • Вы можете отслеживать ответы сервера и шаблоны ошибок, чтобы выявить потенциальные проблемы, связанные со сканером.

Защитник разработчиков Google, Мартин Сплитт, предостерегает владельцев веб-сайтов быть осторожными по поводу трафика, который, кажется, поступает от Googlebot. Многие запросы, которые выдают себя за Googlebot, действительно поступают от посторонних скребков.

Он поделился этим в последнем эпизоде ​​серии Google’ SEO Made Easy, подчеркивая, что “не каждый, кто называет себя Googlebot, на самом деле является Googlebot.”

Почему это имеет значение?

Фальшивые сканеры могут искажать аналитику, потреблять ресурсы и усложнять точную оценку эффективности вашего сайта.

Вот как отличить законный трафик Googlebot от поддельной активности сканера.

Методы проверки Googlebot

Вы можете отличить настоящий трафик Googlebot от поддельных сканеров, глядя на общие модели трафика, а не на необычные запросы.

Настоящий трафик Googlebot обычно имеет одинаковую частоту запросов, время и поведение.

Если вы подозреваете фальшивую активность Googlebot, Splitt советует использовать такие инструменты Google, чтобы проверить это:

Инструмент проверки URL-адресов (Search Console)

  • Поиск определенного содержимого в воспроизведенном HTML подтверждает, что Googlebot может успешно получить доступ к странице.
  • Обеспечивает возможность тестирования в реальном времени для проверки текущего статуса доступа.

Тест богатых результатов

  • Действует как альтернативный метод проверки доступа Googlebot
  • Показывает, как Googlebot отображает страницу
  • Можно использовать даже без доступа к Search Console

Отчет о статистике сканирования

  • Показывает подробные данные ответа сервера, в частности на проверенные запросы Googlebot
  • Помогает определить шаблоны в законном поведении Googlebot

Существует ключевое ограничение, на которое стоит обратить внимание: эти инструменты проверяют, что видит и делает настоящий робот Googlebot, но они не идентифицируют имитаторов непосредственно в журналах вашего сервера.

Чтобы полностью защититься от поддельных Googlebots, вам нужно:

  • Сравните журналы сервера с официальными диапазонами IP-адресов Google
  • Ввести проверку обратного поиска DNS
  • Используйте приведенные выше инструменты, чтобы определить базовое законное поведение работа Googlebot

Мониторинг ответов сервера

Сплит также подчеркнул важность мониторинга ответов сервера на запросы сканирования, в частности:

  • ошибки серии 500
  • Ошибки получения
  • Время ожидания
  • Проблемы с DNS

Эти проблемы могут значительно повлиять на эффективность сканирования и видимость поиска для крупных веб-сайтов, содержащих миллионы страниц.

Сплит говорит:

“Обратите внимание на ответы, которые ваш сервер предоставил Googlebot, особенно на большое количество ответов (500), ошибки получения, тайм-ауты, проблемы с DNS и т.д. &amp ;rdquo;

Он отметил, что хотя некоторые ошибки являются временными, постоянные проблемы могут быть исследованы далее.

Сплит предложил использовать анализ журнала сервера для более сложной диагностики, хотя он признал, что это “не просто.”

Однако он подчеркнул его ценность, отметив, что “просматривая журналы веб-сервера… это мощный способ лучше понять, что происходит на вашем сервере.

Потенциальное влияние

Кроме безопасности, поддельный трафик Googlebot может повлиять на эффективность веб-сайта и поисковую оптимизацию.

Сплит подчеркнул, что доступность веб-сайта в браузере’не гарантирует доступ Googlebot, ссылаясь на различные потенциальные препятствия, в частности:

  • Ограничение Robots.txt
  • Конфигурации брандмауэра
  • Системы защиты от ботов
  • Проблемы с сетевой маршрутизацией

Взгляд вперед

Фальшивый трафик Googlebot может раздражать, но Сплит говорит, что вам не стоит слишком беспокоиться о редких случаях.

Допустим, что фальшивая активность сканера становится проблемой или использует слишком много мощности сервера. В таком случае вы можете принять такие меры, как ограничение частоты запросов, блокирование определенных IP-адресов или использование лучших методов обнаружения ботов.

Чтобы узнать больше об этом вопросе, просмотрите полное видео ниже: