Новая документация Google по сканированию объясняет, как решить проблемы сканирования, связанные с CDN
Google опубликовал объяснение, в котором обсуждается, как сети доставки содержимого (CDN) влияют на поисковое сканирование и улучшают поисковую оптимизацию, а также то, как они иногда могут вызывать проблемы.
Что такое CDN?
Сеть доставки содержимого (CDN) — это служба, которая кэширует веб-страницу и отображает ее из центра обработки данных, близкого к браузеру, который запрашивает эту веб-страницу. Кэширование веб-страницы означает, что CDN создает и сохраняет копию веб-страницы. Это ускоряет доставку веб-страницы, поскольку теперь она обслуживается с сервера, который ближе к посетителю сайта, требующий меньше “скаков” через Интернет от исходного сервера к месту назначения (браузер посетителя сайта).
CDNs Разблокировать больше сканирования
Одним из преимуществ использования CDN является то, что Google автоматически увеличивает скорость сканирования, когда обнаруживает, что веб-страницы обслуживаются с CDN. Это делает использование CDN привлекательным для поисковиков и издателей, которые озабочены увеличением количества страниц, сканированных Googlebot.
Обычно Googlebot уменьшает объем сканирования с сервера, если обнаруживает, что он достигает определенного порога, который влечет замедление работы сервера. Робот Googlebot замедляет скорость сканирования, называемую дросселированием. Этот порог для “дросселирования” выше, когда обнаружен CDN, что приводит к сканированию большего количества страниц.
Что-то следует понимать, что касается обслуживания страниц с CDN, это то, что страницы, которые обслуживаются впервые, должны обслуживаться непосредственно с вашего сервера. Google использует пример сайта с более миллионом веб-страниц:
“Однако во время первого доступа к URL-адресу кэш CDN’ является “холодным”, то есть, поскольку никто не еще спросил эту URL-адрес, его содержимое еще не кэшировалось CDN, поэтому вашему исходному серверу все равно нужно будет обслуживать этот URL-адрес по крайней мере один раз, “разминка” кэш CDN’s.
Короче говоря, даже если ваш веб-магазин поддерживается CDN, вашему серверу нужно будет обслуживать эти 1 000 007 URL по крайней мере один раз. Только после этого начального обслуживания ваш CDN сможет помочь вам со своими кэшами. Это значительное бремя для вашего “бюджета сканирования” и скорость сканирования, вероятно, будет высокой в течение нескольких дней; имейте это в виду, если вы планируете запускать много URL одновременно.
При использовании CDN отрицательный эффект для сканирования
Google сообщает, что иногда CDN может поместить Googlebot в черный список и впоследствии заблокировать сканирование. Этот эффект описывается двумя видами блоков:
1. Жесткие блоки
2. Мягкие блоки
Жесткие блокировки происходят, когда CDN отвечает, что произошла ошибка сервера. Плохой ответ на ошибку сервера может быть 500 (внутренняя ошибка сервера), сигнализирующая о серьезной проблеме с сервером. Еще один плохой ответ на ошибку сервера – 502 (плохой шлюз). Оба эти ответа на ошибку сервера приведут к тому, что Googlebot замедлит скорость сканирования. Проиндексированные URL-адреса сохраняются внутри Google, но длительные ответы 500/502 могут привести к тому, что Google в конце концов удалит URL-адреса из поискового индекса.
Желательным ответом является 503 (служба недоступна), которая указывает на временную ошибку.
Еще один тяжелый блок, на который стоит обратить внимание, – это то, что Google называет случайными ошибками “” это когда сервер посылает код ответа 200, что означает, что ответ был правильным (даже если он обслуживает страницу ошибки с этим ответом 200). Google расценит эти страницы с ошибками как дубликаты и удалит их из поискового индекса. Это большая проблема, потому что для восстановления после такого рода ошибок может потребоваться время.
Программная блокировка может произойти, если CDN показывает один из таких “Вы человек?” всплывающие окна (межстраничные объявления бота) для Googlebot. Боты должны отправить ответ сервера 503, чтобы Google знал, что это временная проблема.
Новая документация Google’ объясняет:
<цитата>
“…когда появляется промежуточное объявление, это все, что они видят, а не ваш замечательный сайт. В случае этих межстраничных объявлений для проверки роботом мы настоятельно рекомендуем отправить четкий сигнал в виде кода статуса HTTP 503 автоматическим клиентам, например сканерам, о том, что содержимое временно недоступно. Это обеспечит автоматическое удаление содержимого из индекса Google~
См. также: 9 советов по оптимизации бюджета сканирования для SEO
Проблемы настройки с инструментом проверки URL-адреса и элементами управления WAF
Google рекомендует использовать Инструмент проверки URL в Search Console, чтобы увидеть, как CDN обслуживает ваши веб-страницы. Если брандмауэр CDN, называемый брандмауэром веб-приложений (WAF), блокирует работа Googlebot по IP-адресу, вы сможете проверить наличие заблокированных IP-адресов и сравнить их с официальным списком IP-адресов Google, чтобы увидеть, есть ли один из них в списке.
Google предлагает такие советы по отладке на уровне CDN:
“Если вам нужно, чтобы ваш сайт отображался в поисковых системах, мы настоятельно рекомендуем проверить, имеют ли доступ к вашему сайту интересующие вас сканеры. Помните, что IP-адреса могут оказаться в списке блокировок автоматически, без вашего ведома, поэтому время от времени проверять списки блокировок – хорошая идея для успеха вашего сайта в поиске и за его пределами. Если список блокировок очень длинный (не в отличие от этой публикации в блоге), попробуйте искать лишь несколько первых сегментов диапазонов IP-адресов, например вместо поиска 192.168.0.101 вы можете просто искать 192.168.”