WordPress: Убираем дубли контента с replytocom в Google

Добрый день всем читателям cospi.ru! Хочу сегодня обратить ваше внимание на поисковик Google и как он индексирует сайты, а точнее на те дубли контента, которые постоянно попадают в индекс, и не имеет значение — закрыты при этом они в robots.txt или нет.

Речь идёт о страницах с replytocom:

страницы с replytocom

Такие страницы образуются из-за оставленных комментариев к записям и чем больше комментариев, тем больше подобных страниц попадают в индекс.

Важный нюанс – такая генерация страниц с replytocom, появляется тогда, когда на сайте используется древовидная система комментирования с возможностью отвечать на комментарии пользователей.

Как определить дубль контента на сайте?

На самом деле всё очень просто, берёте адрес страницы, на которых оставлено несколько комментариев и проверяете её в Google, с помощью специального поискового оператора:

site:https://cospi.ru/pervachok-vypusk-1/

Чаще всего, Google показывает основную страницу и ниже надпись — «Мы скрыли некоторые результаты, которые очень похожи на уже представленные выше». В любом случае, если у вас установлены древовидные комментарии, то дубли страниц с replytocom обязательно будут.

Вот так выглядит url c «replytocom»:

https://cospi.ru/pervachok-vypusk-1/?replytocom=309

Устраняем проблему

Как уже известно, директива в роботсе Disallow: /*?* не спасает, хоть и пишет Google, что «Описание веб-страницы недоступно из-за ограничений в файле robots.txt», но тем не менее в индекс её включает.

Значит надо просто удалить возможность генерации таких ссылок, и сделаем это с помощью правки файла coment-template.php, который находиться в корне директории wp-includes.

В этом файле ищем функцию function get_comment_reply_link и удаляем код, который выделен красным на скриншоте (кликабельно):

Мы удалили участок кода, которые создаёт саму ссылку с replytocom и тем самым генерирует дублирующие страницы.

Сейчас ссылка на ответ к комментарию будет иметь вид:

https://cospi.ru/pervachok-vypusk-1#respond

Вместо старого:

https://cospi.ru/pervachok-vypusk-1/?replytocom=87#respond

У новых записей на блоге теперь не будет дублирующих страниц в индексе, но вот что делать со старыми дублями, которые уже «сидят» в индексе? Ведь мы убрали только ссылки, по которым поисковые боты могут попасть на страницу, а сами дубли, физически остались на сайте и Google будет по-прежнему индексировать их.

А выход один: запретить доступ поисковому боту к подобным страницам в панели вебмастера (Сканирование » Параметры URL):

панели вебмастера от Google

Вот и всё, после этих манипуляций у вас не должны появляться дубли с replytocom. И теперь, количество всех проиндексированных страниц сайта в Google, может наконец-то сравняется с количеством страниц в Яндексе :).

Оценить статью post

Как определить дубль контента на сайте?

Устраняем проблему

Компактные формы комментариев на сайт

Продвижение вечными ссылками

Похожие статьи

Написать комментарий Cancel Reply