Откройте для себя самые распространенные проблемы с robots.txt, влияние, которое они могут оказать на ваш веб-сайт и поисковое присутствие, а также способы их решения.

<изображение fetchpriority="высокий" src="https://www.searchenginejournal.com/wp-content/uploads/2022/02/common-robots.txt-issues-620a5e42a0256-sej-760x400.png" ширина="760" высота="400" alt="8 распространенных проблем с файлом Robots.txt и способы их разрешения" srcset="https://www.searchenginejournal.com/wp-content/uploads/2022/02/common-robots.txt-issues-620a5e42a0256-sej-1520x800.png 1,5x" />

Robots.txt – это полезный и мощный инструмент, который дает указания сканерам поисковых систем относительно того, как вы хотите, чтобы они сканировали ваш веб-сайт. Управление этим файлом является ключевым компонентом хорошего технического SEO.

Он не всемогущий – говоря собственными словами Google’это не является механизмом предотвращения доступа к веб-страницы в Google” – но это может помочь предотвратить перегрузку вашего сайта или сервера запросами сканера.

Если на вашем сайте есть этот блок сканирования, вы должны быть уверены, что он используется должным образом.

Это особенно важно, если вы используете динамические URL-адреса или другие методы, которые генерируют теоретически бесконечное количество страниц.

В этом руководстве мы рассмотрим некоторые из наиболее распространенных проблем с файлом robots.txt, их влияние на ваш веб-сайт и поисковое присутствие, а также способы решения этих проблем, если вы считаете, что они возникли.

Но сначала давайте быстро рассмотрим файл robots.txt и его альтернативы.

Что такое Robots.txt?

Robots.txt использует формат обычного текстового файла и размещается в корневом каталоге вашего сайта.

Он должен быть в самом верхнем каталоге вашего сайта. Поисковые системы просто проигнорируют его, если вы разместите его в подкаталоге.

Несмотря на большую мощность, robots.txt часто является относительно простым документом, и простой файл robots.txt можно создать в считанные секунды с помощью такого редактора, как Блокнот. Вы можете повеселиться с ними и добавить дополнительные сообщения для поиска пользователей.

Изображение от автора, февраль 2024 г.

Существуют другие способы достижения тех же целей, для которых обычно используется robots.txt.

Отдельные страницы могут содержать метатег robots в самом коде страницы.

Вы также можете использовать HTTP-заголовок X-Robots-Tag, чтобы влиять на то, как (и будет ли) содержимое отображаться в результатах поиска.

Что может сделать файл Robots.txt?

Robots.txt может достичь различных результатов в разных типах содержимого:

Веб-страницы можно заблокировать от сканирования.

Они все еще могут появляться в результатах поиска, но без текстового описания. Не HTML-содержимое на странице также не будет сканироваться.

<сильный>Можно заблокировать показ медиафайлов в результатах поиска Google.

Это включает изображения, видео и аудиофайлы.

Если файл общедоступный, он все равно будет существовать” онлайн, его можно просматривать и посылать на него, но это частное содержимое не отображается в результатах поиска Google.

Файлы ресурсов, такие как неважные внешние сценарии, можно заблокировать.

Но это означает, что если Google просканирует страницу, для загрузки которой требуется этот ресурс, робот Googlebot “увидит” версия страницы так, будто этого ресурса не существует, что может повлиять на индексацию.

Вы не можете использовать robots.txt, чтобы полностью заблокировать веб-страницу от появления в результатах поиска Google’

Чтобы достичь этого, вы должны использовать альтернативный метод, например добавить метатег noindex к заголовку страницы.

Насколько опасны ошибки в файле robots.txt?

Ошибка в robots.txt может иметь непредвиденные последствия, но это часто не конец света.

Хорошей новостью является то, что, исправив файл robots.txt, вы можете быстро и (обычно) полностью восстановить любые ошибки.

“Веб-сканеры, как правило, очень гибкие, на них обычно не влияют мелкие ошибки в файле robots.txt. В общем, самое худшее, что может произойти, это то, что неправильные [или] неподдерживаемые директивы будут проигнорированы.

Имейте в виду, что Google не может читать мысли во время интерпретации файла robots.txt; мы должны интерпретировать полученный файл robots.txt. Тем не менее, если вы знаете о проблемах в вашем файле robots.txt, их обычно легко исправить.

8 типичных ошибок в файле Robots.txt

<ол>

  • Robots.txt не в корневом каталоге.
  • Плохое использование символов подстановки.
  • Noindex в файле Robots.txt.
  • Заблокированные сценарии и таблицы стилей.
  • Нет URL-адреса карты сайта.
  • Доступ к сайтам разработки.
  • Использование абсолютных URL.
  • Устаревшее & Неподдерживаемые элементы.
  • Если ваш веб-сайт удивительно ведет себя в результатах поиска, ваш файл robots.txt является хорошим местом для поиска любых ошибок, синтаксических ошибок и чрезмерных правил.

    Давайте рассмотрим каждую из вышеприведенных ошибок более подробно и увидим, как убедиться, что у вас есть действительный файл robots.txt.

    1. Robots.txt не в корневом каталоге

    Поисковые работы могут обнаружить файл, только если он находится в вашей корневой папке.

    Вот почему между .com (или эквивалентным доменом) вашего веб-сайта и ‘robots.txt’ должна быть только коса риска. имя файла в URL-адресе вашего файла robots.txt.

    Если там есть вложенная папка, ваш файл robots.txt, вероятно, невидим для поисковых роботов, и ваш веб-сайт, вероятно, ведет себя так, будто файла robots.txt вообще не было.

    Чтобы решить эту проблему, переместите файл robots.txt в корневый каталог.

    Следует отметить, что для этого вам потребуется иметь корневой доступ к вашему серверу .

    Некоторые системы управления содержимым будут загружать файлы на “носители” подкаталог (или что-то подобное) по умолчанию, поэтому вам, возможно, придется обойти это, чтобы получить файл robots.txt в нужном месте.

    2. Плохое использование символов подстановки

    Robots.txt поддерживает два символа подстановки:

    • Звездочка (*) – представляет любые случаи действительного символа, как Джокер в колоде карт .
    • Знак доллара ($) – обозначает конец URL-адреса, позволяя применять правила только к конечной части URL-адреса, например расширение типа файла.

    Умно применить минималистичный подход к использованию символов обобщения, поскольку они могут налагать ограничения на гораздо более широкую часть вашего веб-сайта.

    Также относительно легко заблокировать доступ работа ко всему вашему сайту с помощью неправильно размещенной звездочки.

    Проверьте свои правила подстановки с помощью инструмента тестирования robots.txt, чтобы убедиться, что они работают должным образом. Будьте осторожны с использованием символов подстановки, чтобы предотвратить случайную блокировку или разрешение слишком много.

    3. Noindex в Robots.txt

    Это чаще встречается на веб-сайтах, которым больше нескольких лет.

    С 1 сентября 2019 года Google прекратил соблюдение правил noindex в файлах robots.txt.

    Если ваш файл robots.txt был создан до этой даты или содержит инструкции noindex, вы, вероятно, увидите эти страницы в индексе результатов поиска Google&rsquo.

    Решение этой проблемы заключается в реализации альтернативного “noindex” метод.

    Одним из вариантов является метатег robots, который вы можете добавить к заголовку любой веб-страницы, которую хотите предотвратить индексирование Google.

    4. Заблокированные сценарии и таблицы стилей

    Может показаться логичным заблокировать доступ сканера к внешним JavaScript и каскадным таблицам стилей (CSS).

    Однако помните, что Googlebot требует доступа к файлам CSS и JS, чтобы “просмотреть” ваши страницы HTML и PHP правильно.

    Если ваши страницы странно ведут себя в результатах Google’ или, похоже, Google не видит их должным образом, проверьте, не блокируете ли вы доступ сканера к необходимым внешним файлам.

    Простым решением этой проблемы является удаление строки из файла robots.txt, который блокирует доступ.

    Или, если у вас есть файлы, которые нужно заблокировать , вставьте исключение, которое восстановит доступ к необходимым CSS и JavaScript.

    5. Нет URL-адреса XML карты сайта

    Это больше о SEO, чем о чем-то другом.

    Вы можете включить URL-адрес вашей XML карты сайта в файл robots.txt.

    Поскольку это первое место, куда Googlebot смотрит при сканировании вашего веб-сайта, это дает сканеру возможность узнать структуру и основные страницы вашего сайта.

    Хотя это не совсем ошибка – поскольку отсутствие карты сайта не должно негативно повлиять на фактическую основную функциональность и внешний вид вашего веб-сайта в результатах поиска – все равно стоит добавить URL-адрес карты сайта к robots.txt, если вы хотите усилить свои усилия по оптимизации поисковых систем.

    6. Доступ к сайтам разработки

    Блокировка сканеров с вашего активного веб-сайта – это нет-нет, но также позволить им сканировать и индексировать ваши страницы, которые еще находятся на стадии разработки.

    Лучше добавить инструкцию по запрещению к файлу robots.txt разрабатываемого веб-сайта, чтобы широкая общественность не увидела его, пока он не будет завершен.

    Также очень важно удалить указание запрета при запуске готового веб-сайта.

    Забыть удалить эту строку из robots.txt — одна из самых распространенных ошибок среди веб-разработчиков; это может прекратить сканирование и индексацию всего веб-сайта.

    Если кажется, что ваш сайт разработки получает реальный трафик, или недавно запущенный сайт плохо работает при поиске, найдите правило запрета универсального агента пользователя в файле robots.txt:

    Агент пользователя: *

    Запретить: /

    Если вы видите это, когда нет’ (или не’ видите его не тогда, когда имеете), внесите необходимые изменения в свой файл robots.txt и убедитесь, что вид поиска вашего веб-сайта обновляется соответственно.

    7. Использование абсолютных URL

    Хотя использование абсолютных URL-адресов в таких вещах, как канонические и hreflang, является лучшей практикой, для URL-адресов в robots.txt верно обратное.

    Использование относительных путей в файле robots.txt является рекомендуемым подходом для указания, к каким частям сайта не должны получить доступ сканеры.

    Это подробно описано в документации Google’s robots.txt, где указано:

    Каталог или страница относительно корневого домена, которую может просканировать только что упомянутый агент пользователя.

    Если вы используете абсолютный URL-адрес, нет никакой гарантии, что сканеры будут интерпретировать его по назначению и что правило запрета/разрешения будет соблюдено.

    8. Устаревшее & Неподдерживаемые элементы

    Хотя указания относительно файлов robots.txt не изменились в течение многих лет, два элемента, которые часто включают:

    • Ползание-задержка.
    • Noindex.

    Хотя Bing поддерживает задержку сканирования, Google не поддерживает, но веб-мастера часто указывают это. Ранее вы могли устанавливать настройки сканирования в Google Search Console, но это было удалено в конце 2023 года.

    Google объявил о прекращении поддержки директивы noindex в файлах robots.txt в июле 2019 года. До этой даты веб-мастера могли использовать директиву noindex в своих файлах robots.txt.

    Эта практика не была широко поддерживаемой или стандартизированной, и лучшим методом для noindex было использование роботов на странице или измерений x-robots на уровне страницы.

    Как восстановить ошибку robots.txt

    Если ошибка в файле robots.txt имеет нежелательное влияние на поисковый вид вашего веб-сайта, прежде всего исправьте файл robots.txt и убедитесь, что новые правила имеют желаемый эффект.

    Некоторые инструменты сканирования SEO могут помочь, чтобы вам не пришлось ждать, пока поисковые системы просканируют ваш сайт.

    Если вы уверены, что robots.txt ведет себя должным образом, вы можете попытаться повторно просканировать свой сайт как можно быстрее.

    Могут помочь такие платформы, как Google Search Console и Bing Webmaster Tools.

    Представьте обновленную карту сайта и запросите повторное сканирование любых страниц, которые были неправильно удалены из списка.

    К сожалению, вы находитесь под прихотью Googlebot – нет никакой гарантии относительно того, сколько времени может потребоваться, чтобы любые отсутствующие страницы снова появились в поисковом индексе Google.

    правильные действия, чтобы минимизировать это время, насколько это возможно, и продолжать проверку, пока Googlebot не внедрит исправленный robots.txt.

    Последние мысли

    Что касается ошибок robots.txt, предупредить их всегда лучше, чем лечить.

    На крупном веб-сайте, приносящем прибыль, случайный символ подстановки, который удаляет весь веб-сайт из Google, может немедленно повлиять на доходы.

    Редактирование файла robots.txt должны тщательно вноситься опытными разработчиками, дважды проверяться и – в соответствующих случаях &nd;ndash; с учетом второго мнения.

    Если возможно, проверьте в редакторе изолированной программной среды, прежде чем опубликовать его на реальном сервере, чтобы избежать случайных проблем с доступностью.

    Помните, когда происходит худшее, важно не паниковать.

    Диагностируйте проблему, исправьте файл robots.txt и повторно отправьте свою карту сайта для повторного сканирования.

    Ваше место в рейтинге поиска будет восстановлено в течение нескольких дней.