Google просмотрела свою документацию для веб-сканеров, добавив второй список IP-адресов, соответствующих сканерам, которые Google не контролирует

Google обновил документацию Googlebot и сканера, чтобы добавить ряд IP-адресов для ботов, которые запускают пользователи продуктов Google. Названия каналов изменены, что важно для издателей, вносящих контролируемые Google IP-адреса в белый список. Изменение будет полезным для издателей, которые хотят блокировать скребки, использующие облако Google, и другие сканеры, не связанные непосредственно с Google.

Новый список IP-адресов

Google говорит, что список содержит давно используемые диапазоны IP-адресов, поэтому это не новые диапазоны IP-адресов.

Существует два типа диапазонов IP-адресов:

<ол>

  • Диапазоны IP-адресов, которые инициируются пользователями, но контролируются Google и преобразуются в имя хоста Google.com.
    Это такие инструменты, как Google Site Verifier и, вероятно, Rich Results Tester Tool.
  • Диапазоны IP-адресов, которые создаются пользователями, но не контролируются Google и превращаются в имя хоста gae.googleusercontent.com.
    Это приложения, находящиеся в облаке Google, или сценарии приложений, вызываемых из Google Таблиц.
  • Списки, соответствующие каждой категории, сейчас разные.

    Ранее список, соответствующий IP-адресам Google, был таким: special-crawlers.json (превращается в gae.googleusercontent.com)

    Теперь “специальные сканеры” список соответствует сканерам, которые не контролируются Google.

    “IP-адреса в объекте user-triggered-fetchers.json преобразуются на имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, требующую получения внешних каналов RSS по запросу пользователя этого сайта. /blockquote>

    Новый список, который соответствует сканерам, контролируемым Google: 

    user-triggered-fetchers-google.json

    “Инструменты и функции продукта, где конечный пользователь инициирует выборку. К примеру, Google Site Verifier действует по запросу пользователя. Поскольку выборку спрашивал пользователь, эти программы игнорируют правила robots.txt.

    Загрузчики, управляемые Google, происходят из IP-адресов в объекте user-triggered-fetchers-google.json и превращаются в имя хоста google.com.”

    < /blockquote>

    Список IP-адресов от Google Cloud и сканеров приложений, которые Google не контролирует’, можно найти здесь:

    Список IP-адресов от Google, которые запускаются пользователями и контролируются Google, находится здесь:

    Новый раздел содержимого

    Есть новый раздел содержимого, объясняющий, о чем новый список.

    “Загрузчики, управляемые Google, происходят из IP-адресов в объекте user-triggered-fetchers-google.json и превращаются в имя хоста google. com. IP-адреса в объекте user-triggered-fetchers.json превращаются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, требующую получения внешних RSS-каналов по запросу пользователя этого сайта. ***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com user-triggered-fetchers .json и user-triggered-fetchers-google.json”

    История изменений Google

    История изменений Google’объяснила изменения так:

    “Экспорт дополнительного диапазона IP-адресов Google Fetcher
    Что: добавлен дополнительный список IP-адресов для сборщиков, управляемых продуктами Google, в отличие, например, от сценария приложений, которым управляет пользователь. Новый список user-triggered-fetchers-google.json содержит диапазоны IP-адресов, которые используются в течение длительного времени.

    Почему: стало технически возможным экспортировать диапазоны.”