Гари Иллис из Google рекомендует использовать robots.txt для блокировки сканеров от URL-адресов «добавления в корзину», предотвращая бесполезный расход ресурсов сервера.

  • Используйте robots.txt для блокировки сканеров от “URL-адресов действия”.
  • Это предотвращает потерю ресурсов сервера из-за напрасных обращений сканера.
  • Это давняя лучшая практика, которая остается актуальной и сегодня.

В публикации на LinkedIn Гэри Иллис, аналитик Google, повторил древнее указание для владельцев веб-сайтов: используйте файл robots.txt, чтобы предотвратить веб-сканеры доступа к URL, которые запускают такие действия, как добавление товаров в корзины или списки желаний.

Иллис подчеркнул распространенную жалобу на ненужный трафик сканера, который перегружает серверы, часто из-за ботов поисковых систем, которые сканируют URL-адреса, предназначенные для действий пользователя.

Он написал:

“Глядя на то, что мы’ползаем с сайтов в жалобах, очень часто это’URL-адреса действий, такие как ‘ добавить в корзину’ и ‘добавить в список желаний.’ Они бесполезны для сканеров, и вы, вероятно, не хотите, чтобы они сканировались.

Чтобы избежать бесполезной нагрузки на сервер, Иллис посоветовал заблокировать доступ к файлу robots.txt для URL-адресов с такими параметрами, как “?add_to_cart& ” или “?add_to_wishlist.”

Как пример, он предлагает:

“Если у вас есть такие URL-адреса:
https://example.com/product/scented-candle-v1?add_to_cart
и
https://example.com/product/scented-candle-v1?add_to_wishlist

Вероятно, вам следует добавить правило запрета для них в ваш файл robots.txt.”

Хотя использование метода HTTP POST также может предотвратить сканирование таких URL, Illyes отметил, что сканеры все еще могут делать запросы POST, поэтому robots.txt остается целесообразным.

Подкрепление лучших практик, сложившихся десятилетиями

Алан Перкинс, принимавший участие в теме, отметил, что эти указания перекликаются с веб-стандартами, введенными в 1990-х годах по тем же причинам.

Цитирование из документа 1993 года под названием “Стандарт для исключения роботов”:

“В 1993 и 1994 годах были случаи, когда работы посещали WWW-серверы, где они были нежелательны по разным причинам&help; не подходящие, напр. очень глубокие виртуальные деревья, дублированная информация, временная информация или cgi-скрипты с побочными эффектами (такими как голосование).

Стандарт robots.txt, который предлагает правила для ограничения доступа для хорошо ведущих себя сканеров, возник как “консенсус” решение среди веб-стейкхолдеров еще в 1994 году.

Послушание & Исключения

Illyes подтвердил, что сканеры Google полностью придерживаются правил robots.txt, за редкими исключениями, тщательно задокументированными для сценариев, связанных с выборками, инициированными пользователем, или по контракту. ~

Это соблюдение протокола robots.txt было основой политики веб-сканирования Google&rsquo.

Почему SEJ работает

Хотя советы могут показаться рудиментарными, повторное появление этой лучшей практики, сложившейся десятилетиями, подчеркивает ее актуальность.

Используя стандарт robots.txt, сайты могут помочь обуздать чрезмерно упорных сканеров от истощения пропускной способности непроизводительными запросами.

Как это может вам помочь

Независимо от того, ведете ли вы небольшой блог или большую платформу электронной коммерции, следование совету Google относительно использования robots.txt для блокировки доступа сканера к URL-адресам действия может помочь несколькими способами:

  • Уменьшенная нагрузка на сервер: вы можете уменьшить ненужные запросы к серверу и использование пропускной способности, предотвратив сканеры попадать на URL-адреса, вызывающие такие действия, как добавление товаров в корзины или списки желаний.
  • Улучшенная эффективность сканера: предоставление более четких правил в вашем файле robots.txt относительно того, какие URL сканеры должны избегать, может привести к более эффективного сканирования страницы/контента, которые вы хотите проиндексировать и ранжировать.
  • Лучший опыт работы с пользователем: поскольку ресурсы сервера сосредоточены на фактических действиях пользователя, а не на бесполезных обращениях сканера, конечные пользователи, вероятно, будут иметь более быстрое время загрузки и более плавная функциональность.
  • Следуйте стандартам: внедрение указаний переводит ваш сайт в соответствие с общепринятыми стандартами протокола robots.txt, которые являются лучшими в области практики на протяжении десятилетий.

Просмотр директив robots.txt может быть простым, но эффективным шагом для веб-сайтов, которые хотят усилить контроль над деятельностью сканера.

Illyes’ обмен сообщениями указывает на то, что древние правила robots.txt остаются актуальными в нашей современной веб-среде.