Google просмотрела свою документацию для веб-сканеров, добавив второй список IP-адресов, соответствующих сканерам, которые Google не контролирует
Google обновил документацию Googlebot и сканера, чтобы добавить ряд IP-адресов для ботов, которые запускают пользователи продуктов Google. Названия каналов изменены, что важно для издателей, вносящих контролируемые Google IP-адреса в белый список. Изменение будет полезным для издателей, которые хотят блокировать скребки, использующие облако Google, и другие сканеры, не связанные непосредственно с Google.
Новый список IP-адресов
Google говорит, что список содержит давно используемые диапазоны IP-адресов, поэтому это не новые диапазоны IP-адресов.
Существует два типа диапазонов IP-адресов:
<ол>
Это такие инструменты, как Google Site Verifier и, вероятно, Rich Results Tester Tool.
Это приложения, находящиеся в облаке Google, или сценарии приложений, вызываемых из Google Таблиц.
ол>
Списки, соответствующие каждой категории, сейчас разные.
Ранее список, соответствующий IP-адресам Google, был таким: special-crawlers.json (превращается в gae.googleusercontent.com)
Теперь “специальные сканеры” список соответствует сканерам, которые не контролируются Google.
“IP-адреса в объекте user-triggered-fetchers.json преобразуются на имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, требующую получения внешних каналов RSS по запросу пользователя этого сайта. /blockquote>
Новый список, который соответствует сканерам, контролируемым Google:
user-triggered-fetchers-google.json
“Инструменты и функции продукта, где конечный пользователь инициирует выборку. К примеру, Google Site Verifier действует по запросу пользователя. Поскольку выборку спрашивал пользователь, эти программы игнорируют правила robots.txt.
Загрузчики, управляемые Google, происходят из IP-адресов в объекте user-triggered-fetchers-google.json и превращаются в имя хоста google.com.”
< /blockquote>
Список IP-адресов от Google Cloud и сканеров приложений, которые Google не контролирует’, можно найти здесь:
Список IP-адресов от Google, которые запускаются пользователями и контролируются Google, находится здесь:
Новый раздел содержимого
Есть новый раздел содержимого, объясняющий, о чем новый список.
“Загрузчики, управляемые Google, происходят из IP-адресов в объекте user-triggered-fetchers-google.json и превращаются в имя хоста google. com. IP-адреса в объекте user-triggered-fetchers.json превращаются в имена хостов gae.googleusercontent.com. Эти IP-адреса используются, например, если сайт, работающий в Google Cloud (GCP), имеет функцию, требующую получения внешних RSS-каналов по запросу пользователя этого сайта. ***-***-***-***.gae.googleusercontent.com или google-proxy-***-***-***-***.google.com user-triggered-fetchers .json и user-triggered-fetchers-google.json”
История изменений Google
История изменений Google’объяснила изменения так:
“Экспорт дополнительного диапазона IP-адресов Google Fetcher
Что: добавлен дополнительный список IP-адресов для сборщиков, управляемых продуктами Google, в отличие, например, от сценария приложений, которым управляет пользователь. Новый список user-triggered-fetchers-google.json содержит диапазоны IP-адресов, которые используются в течение длительного времени.Почему: стало технически возможным экспортировать диапазоны.”