Google выпустил нового бота для коммерческих клиентов ИИ и документацию для владельцев сайтов для отслеживания его посещений
Google тихо добавила новый робот к своей документации сканера, который сканирует от имени коммерческих клиентов их продукта Vertex AI. Похоже, что новый сканер может сканировать только сайты, контролируемые владельцами сайтов, но документация не совсем ясна по этому поводу.
Агенты Vertex AI
Google-CloudVertexBot, новый сканер, загружает содержимое веб-сайта для клиентов Vertex AI, в отличие от других ботов, перечисленных в документации Search Central, связанных с Поиском Google или рекламой.
Официальная документация Google Cloud предлагает следующую информацию:
“В Vertex AI Agent Builder существуют различные виды хранилищ данных. Хранилище данных может содержать только один тип данных.”
Далее приведены шесть типов данных, один из которых является общедоступными данными веб-сайта. В документации по сканированию указано, что существует два типа сканирования веб-сайтов с ограничениями, характерными для каждого типа.
<ол>
ол>
Документация запутана
Документация объясняет данные веб-сайта:
“Хранилище данных с данными веб-сайтов использует данные, проиндексированные с общедоступных веб-сайтов. Вы можете предоставить набор доменов и настроить поиск или рекомендации по данным, сканированным из доменов. Эти данные содержат текст и изображения, помеченные метаданными.
В приведенном выше описании ничего не идет о проверке доменов. В описании базового индексирования веб-сайтов также речь не идет о проверке владельца сайта.
Но в документации по расширенному индексированию веб-сайтов указано, что проверка домена является обязательной, а также накладывает квоты на индексацию.
Однако в документации к самому сканеру указано, что новый сканер сканирует “владельцев сайта’ запрос” может случиться, что он не будет сканировать общедоступные сайты.
Теперь вот запутанная часть: нотация журнала изменений для этого нового веб-сканера указывает на то, что новый сканер может прийти, чтобы очистить ваш сайт.
Вот что пишет журнал изменений:
“Новый сканер был представлен, чтобы помочь владельцам сайтов идентифицировать новый трафик сканера.”
Новый сканер Google
Новый сканер называется Google-CloudVertexBot.
Это новая информация о нем:
“Google-CloudVertexBot сканирует сайты владельцев сайтов’ запрос при создании агентов Vertex AI.
Маркеты агента пользователя
- Google-CloudVertexBot
- Googlebot”
Подстрока агента пользователя
Google-CloudVertexBotНепонятная документация
Похоже, документация указывает на то, что новый сканер не индексирует общедоступные сайты, но в журнале изменений указано, что он был добавлен, чтобы владельцы сайтов могли идентифицировать трафик от нового сканера. Если вы заблокируете новый сканер с помощью robots.txt на всякий случай? Это не глупо считать, учитывая, что в документации достаточно неясно, он сканирует только те домены, которые проверены как подконтрольные объекту, инициировавшему сканирование.