Google анонсирует два новых веб-сканера, предназначенных для копирования изображений и видео для исследовательских целей

Google обнародовал подробности двух новых сканеров, оптимизированных для сбора изображений и видеосодержимого для “исследований и разработки” целей. Хотя в документации это прямо не указано, предполагается, что издатели не повлияют на рейтинг, если решат заблокировать новые сканеры.

Следует отметить, что данные, собранные этими сканерами, не предназначены исключительно для данных обучения AI, для этого предназначен сканер Google Extended.

GoogleOther Crawlers

Два новых веб-сканера являются версиями веб-сканера Google&Google;, который был запущен в апреле 2023 года. Оригинальный веб-сканер GoogleOther также был предназначен для использования командами продуктов Google для исследований и разработок, описываемых как одноразовые сканирования, описание которых предлагает подсказки о том, для чего будут использоваться новые варианты GoogleOther.

Назначение оригинального сканера GoogleOther официально описано как:

“GoogleOther — это общий сканер, который может использовать различные команды продуктов для получения общедоступного содержимого с сайтов. Например, его можно использовать для одноразовых сканирований для внутренних исследований и разработок.

Два варианта GoogleOther

Есть два новых сканера GoogleOther:

  • GoogleOther-Image
  • GoogleOther-Video

Новые варианты предназначены для сканирования двоичных данных, то есть данных, не являющихся текстом. Данные HTML обычно называют текстовыми файлами, файлами ASCII или Unicode. Если его можно просмотреть в текстовом файле, это текстовый файл/файл ASCII/Unicode. Двоичные файлы – это файлы, которые нельзя открыть в программе просмотра текста, такие как изображения, аудио и видео.

Новые варианты GoogleOther предназначены для изображений и видеосодержимого. Google перечисляет маркеры агента пользователя для обоих новых сканеров, которые можно использовать в robots.txt для блокировки новых сканеров.

1. GoogleOther-Image

Маркеты агента пользователя:

  • GoogleOther-Image
  • GoogleOther

Полная строка агента пользователя:

GoogleOther-Image/1.0

2. GoogleOther-Video

Маркеты агента пользователя:

  • GoogleOther-Video
  • GoogleOther

Полная строка агента пользователя:

GoogleOther-Video/1.0

Недавно обновленные строки GoogleOther User Agent

Google также обновил строки агента пользователя GoogleOther для обычного сканера GoogleOther. С целью блокировки вы можете продолжать использовать тот же маркер агента пользователя, что и раньше (GoogleOther). Новые строки пользовательского агента — это только данные, которые отправляются на серверы для идентификации полного описания сканеров, в частности используемой технологии. В этом случае используется технология Chrome, номер модели периодически обновляется в соответствии с используемой версией (W.X.Y.Z — это номер версии Chrome в следующем примере)

Полный список строк агента пользователя GoogleOther:

  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, как Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (совместимый; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, как Gecko; совместимый; GoogleOther) Chrome/W.X.Y.Z Safari/537.36

GoogleOther Family of Bots

Эти новые боты могут время от времени появляться в журналах вашего сервера, и эта информация поможет идентифицировать их как настоящие сканеры Google и поможет издателям, которые могут отказаться от копирования их изображений и видео для исследовательских целей.

Прочитайте обновленную документацию сканера Google