Почему Google индексирует заблокированные веб-страницы



Джон Мюллер из Google объяснил, почему Google индексирует ограниченные страницы, также почему отчеты Search Console, связанные с этим, можно безопасно игнорировать.

Джон Мюллер из Google дал ответ на вопрос о том, почему Google индексирует страницы, которые запрещены для выполнения обхода с помощью файла robots.txt, и по какой причине можно пропускать соответствующие отчеты Search Console об этих обходах.

Трафик ботов к URL-адресам с параметрами запроса

Человек, задающий вопрос, задокументировал, что боты создают ссылки на несуществующие URL-адреса с параметрами запросов (?q=xyz) на страницы с мета-тегами noindex, которые также блокированы в robots.txt. Вопрос был вызван тем, что Google проходит эти ссылки на страницы, блокируется в robots.txt (не наблюдая мета-тег noindex), а затем сообщает об этом в Google Search Console как "Индексируется, хотя заблокировано robots.txt."

Человек спросил следующий вопрос:

"Но вот главный вопрос: почему Google индексирует страницы, когда он не может просмотреть содержимое? В чем тут выгода?"

Джон Мюллер из Google подтвердил, что если они не могут проникнуть на страницу, они не могут увидеть мета-тег noindex. Он также заметил оператор site:search, посоветовав не учитывать результаты, потому что "средние" пользователи не наблюдают их.

Он написал:

"Да, вы правы: если мы не можем проникнуть на страницу, мы не можем увидеть noindex. Тем не менее, если мы не можем обходить страницы, для нас там мало что можно индексировать. Так что, хотя вы можете увидеть некоторые из этих страниц с помощью целевого запроса site:, средний пользователь их не заметит, поэтому я бы не беспокоился. Noindex также работает (без запрета в robots.txt), это просто означает, что URL-адреса будут сканироваться (и попадут в отчет Search Console как 'обойдены/не индексируются' — ни один из этих статусов не приводит к проблем для остальной части сайта). Важно, чтобы вы не делали их доступными для обхода и индексации."

Связанный: Google напоминает сайтам использовать файл robots.txt для блокировки URL-адресов действий.

Выводы:

1. Ответ Мюллера подтверждает ограничения использования оператора Site:search для диагностических целей. Одной из причин является то, что он не ассоциирован с обычным поисковым индексом, это совсем отдельная штука.

Джон Мюллер из Google описал оператор site search в 2021 году:

"Короткий ответ заключается в том, что запрос site: не предназначен для всестороннего охвата, а также для диагностических целей.

Запрос site: — это определенный вид поиска, который ограничивает результаты заданным веб-сайтом. Это, по сути, просто слово "site", двоеточие и затем домен веб-сайта.

Этот запрос уменьшает результаты заданным веб-сайтом. Он не предназначен для того, чтобы быть исчерпывающей сборником всех страниц этого сайта."

Оператор site не показывает индекс поиска Google, что делает его ненадежным для выяснения того, какие страницы Google уже включил в индекс или нет. Как и другие операторы расширенного поиска Google, они ненадежны как инструменты для определения любых вопросов, связанных с тем, как Google оценивает или индексирует контент.

2. Мета-тег noindex без использования robots.txt подходит для таких ситуаций, когда бот разрабатывает ссылки на несуществующие страницы, которые идентифицируются Googlebot.

Мета-тег noindex на страницах, которые не запрещаются в robots.txt, позволяет Google просмотреть страницу и распознать директиву noindex, гарантируя, что страница не отобразится в поисковом индексе, что предпочтительно, если цель состоит в том, чтобы не допустить страницу в поисковый индекс Google.

3. URL-адреса с мета-тегом noindex породят в Search Console запись "обойдены/не индексируются", что не вызовет негативного эффекта на остальную часть веб-сайта.

Эти записи в Search Console, в контексте страниц, которые целенаправленно заблокированы, лишь указывают на то, что Google просканировал страницу, но не включил в индекс. По сути говоря, что это случилось, а не то, что (в этом специфическом контексте) есть что-то, что нужно исправить. Эта запись полезна для оповещения издателей о страницах, которые по недосмотру заблокированы мета-тегом noindex или по какой-либо другой причине, мешающей индексации страницы. Тогда это стоит расследовать.

Leave a Reply

Your email address will not be published. Required fields are marked *