Путь к статье: Главная » WordPress

Добрый день всем читателям cospi.ru! Хочу сегодня обратить ваше внимание на поисковик Google и как он индексирует сайты, а точнее на те дубли контента, которые постоянно попадают в индекс, и не имеет значение - закрыты при этом они в robots.txt или нет.

Речь идёт о страницах с replytocom:

страницы с replytocom

Такие страницы образуются из-за оставленных комментариев к записям и чем больше комментариев, тем больше подобных страниц попадают в индекс.

Важный нюанс – такая генерация страниц с replytocom, появляется тогда, когда на сайте используется древовидная система комментирования с возможностью отвечать на комментарии пользователей.

Как определить дубль контента на сайте?

На самом деле всё очень просто, берёте адрес страницы, на которых оставлено несколько комментариев и проверяете её в Google, с помощью специального поискового оператора:

site:https://cospi.ru/pervachok-vypusk-1/

Чаще всего, Google показывает основную страницу и ниже надпись - "Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше". В любом случае, если у вас установлены древовидные комментарии, то дубли страниц с replytocom обязательно будут.

Вот так выглядит url c "replytocom":

https://cospi.ru/pervachok-vypusk-1/?replytocom=309

Устраняем проблему

Как уже известно, директива в роботсе Disallow: /*?* не спасает, хоть и пишет Google, что "Описание веб-страницы недоступно из-за ограничений в файле robots.txt", но тем не менее в индекс её включает.

Значит надо просто удалить возможность генерации таких ссылок, и сделаем это с помощью правки файла coment-template.php, который находиться в корне директории wp-includes.

В этом файле ищем функцию function get_comment_reply_link и удаляем код, который выделен красным на скриншоте (кликабельно):

код coment-template.php

Мы удалили участок кода, которые создаёт саму ссылку с replytocom и тем самым генерирует дублирующие страницы.

Сейчас ссылка на ответ к комментарию будет иметь вид:

https://cospi.ru/pervachok-vypusk-1#respond

Вместо старого:

https://cospi.ru/pervachok-vypusk-1/?replytocom=87#respond

У новых записей на блоге теперь не будет дублирующих страниц в индексе, но вот что делать со старыми дублями, которые уже "сидят" в индексе? Ведь мы убрали только ссылки, по которым поисковые боты могут попасть на страницу, а сами дубли, физически остались на сайте и Google будет по-прежнему индексировать их.

А выход один: запретить доступ поисковому боту к подобным страницам в панели вебмастера (Сканирование » Параметры URL):

панели вебмастера от Google

Вот и всё, после этих манипуляций у вас не должны появляться дубли с replytocom. И теперь, количество всех проиндексированных страниц сайта в Google, может наконец-то сравняется с количеством страниц в Яндексе :).


Поделитесь записью:
Комментарии
  1. irocez

    Я как то по своей неопытности закрыл в роботсе «#respond», и сайт полностью перестал индексироваться как вгугле так в яндексе, осталась только главная страница.

  2. Cospi

    Скорей всего, это произошло не из-за закрытия в robots, так как #respond не является страницей, а лишь индификатор (если можно его так назвать).

  3. andreybm

    Отличная статья. Но у меня вопрос тогда сразу, а может тогда не стоит морочить голову и просто отключить древовидную структуру коментариев? Или в таком случае мы что-то теряем?

  4. Cospi

    Вот мой ответ на ваш комментарий в таком случае просто был бы снизу, без такого смещения и визуального выделения. Так проще общаться читателям и автору на блоге.

  5. Евгений

    У меня ещё страницы вложения индексируются, тоже дублей до фига в гугле, надо и их блин как нибудь ликвидировать. Не подскажите?

  6. andreybm

    Я тоже так считаю. Так действительно удобнее. А еще думал в древовидном комментировании скрыт какой то нюанс.

  7. Виталий

    Спасибо за совет. Вот этот момент с ответами я как-то провтыкал. Сейчас пойду исправлять на своем блоге.

  8. Viktor

    Евгений, Аваст 6-й нашёл на ваших страницах вирус «HTML: Script-inf» Знаете-ли Вы об этом ? блоггер Пыхтелкин.

  9. Cospi

    Спасибо, да знаю. Вирусов на сайте нет, это Аваст ругаеться на старую версию WP, как я понял. У многих такая проблема.

  10. Cospi

    Должно помочь, так этот способ полностью рабочий и полностью избавляет сайт от дублей replytocom

  11. Алексей

    А есть другой способ? Если так делать и после обновлять движок, то придется снова вносить правки…

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *