Дубли replytocom нужно уничтожить
Это настолько важная тема, что ради нее стоит прервать многомесячное молчание! Мы ни раз обсуждали проблему дублированного контента. В борьбе с ним мы закрывали от индексации все возможные «лишние» страницы блога (например, категории, метки, комментарии), писали уникальные анонсы… А воз-то и ныне там. Не просто «там» а давно и далеко уехал! И называется это зло replytocom — ответы на комментарии. А теперь все по порядку.
Скажу сразу, что глаза на эту катастрофу мне открыл автор блога olston3d.com . Очень интересный блог о 3D анимации, кстати. И я вижу в этой истории очень много всяких тайных и явных «знаков», но об этом расскажу в отдельной статье. А сейчас, ахтунг!
Вордпресс — скрытое самоуничтожение
Ну уж извините, не могу написать менее эмоциональный заголовок. Я действительно считаю Вордпресс — одной из самых удачных платформ для ведения блога и строительства сайта. Мне доводится иногда работать с сайтами на платных движках и они кажутся менее удобными…
Но в этой бочке меда есть и ампула с ядом, которая называется «Древовидные комментарии». Говоря проще, это такой вид комментов, когда каждый участник обсуждения может не просто высказать свое отдельное мнение, а ответить другому комментатору. Согласитесь, это удобно. И если бы такой возможности не было — ее очень скоро кто-нибудь придумал бы и реализовал.
НО! Ужас в том, что для каждого ответа Вордпресс создает отдельную страницу со своим самостоятельным адресом. И мы не будем сейчас задаваться вопросом, а можно ли было избежать этой ситуации в принципе, как-то доработать, допилить наш обожаемый движок, чтобы комменты как-то просто появлялись один под другим, не превращая наши блоги в раздувшихся монстров… В любом случае, у меня нет практического ответа на этот глобальный вопрос.
Займемся своими личными, текущими и очень важными проблемами…
Как увидеть ссылки replytocom и реальную выдачу своих блогов
Увидеть, где «физически» расположены ссылки replytocom — просто. Откройте свой драгоценный блог — любую статью, где есть комменты. И наведите курсор на кнопочку «ответить» под любым комментом. А теперь посмотрите внизу, в нижнем левом углу окна браузера всплывает ссылка:
Ну это просто для того, чтобы вы могли увидеть, что эти ссылки есть, их видит браузер, их видят различные анализирующие программы. И, бЭзусловно, их видят поисковые системы. Тут у меня, тоже, возникает резонный вопрос: по кой… почему поисковики до сих пор обращают внимание на эту глупость?! Почему бы им не взять себе за правило. отсеивать аткие ссылки?! — Но и тут мы бессильны. Так что, принимаем эту печальную данность.
В общем, стараемся не особо вдаваться в технические тонкости и просто понимаем, что каждая (!) кнопочка «ответить» — это ссылка на отдельную страницу. И на этой странице будут еще исходящие ссылки, например, на профили комментаторов и т.д.
И вот тут вы спросите меня: «И что, ты этого не знала?!» — Да я знала, конечно. Но я закрыла такие ссылки в файле robots.txt и жила спокойно. Периодически мне, конечно, было немного странно, что в Яндексе проиндексировано, например, 200 страниц (по количеству реальных статей + главная, сайтмэп и т.д.), а в Гугле какие-то тысячи. Но не могу же я разорваться, думая обо всем на свете!
И я могла набрать в Гугле запрос site:blogotey.ru replytocom и увидеть:
Ну и прекрасно — всего два результата. А потом нажимаем ниже «показать скрытые результаты» и обтекаем:
Примерно 10400 результатов! Это вот столько дублей наплодил этот replytocom и Гугл их видит! Он, конечно, отправляет их в скрытые результаты. Т.е. все-таки понимает, что это какая-то муть. Но имеет ее ввиду. И может сделать совершенно дикие выводы по отношению к вашему блогу.
Кстати, спустя месяц, после произведенных изменений, таких дублей в поиске стало примерно 4 250 — Гугл успел выкинуть из своего поиска половину этого мусора!
Яндекс хитрее — он не покажет вам то, что он видит. Но можете быть уверены, что это просто скрытность, а не благородство.
Как убить тысячи дублей replytocom
Первое, что я сделала, поставила плагин Wordpress Thread Comment. Не могу сказать, что мне очень уж нравится это решение. Плагин сам создает древовидные комменты, поэтому в базовых настройках Вордпресс их можно отключить. Теперь кнопка «Ответить» не имеет никакого самостоятельного адреса.
Другим естественным способом избавиться от дублей станет полный отказ от внутренних комментариев и переход на сторонние ресурсы. Например, на Disqus (читайте об этом статью здесь). Но эта возможность до сих пор вызывает у меня тягостные размышления: а вдруг что-то с этим сервисом случится и мой блог останется без комментов?! — В общем, не решаюсь я на такое. Хотя у комментирования через форму Фейсбук или Вконтакте имеют свои очевидные преимущества (о них потом поговорим).
Следующий шаг — постановка редиректов на все мусорные ссылки в файле .htaccess. Это служебный файл, который лежит в корне вашего сайта. На моем хостинге Бегет есть специальный менеджер файлов, который позволяет внести изменения в .htaccess. Вот, что нужно туда вписать:
# BEGIN WordPress <IfModule mod_rewrite.c> RewriteEngine On RewriteBase / RewriteCond %{QUERY_STRING} ^replytocom= [NC] RewriteRule (.*) $1? [R=301,L] RewriteRule (.+)/feed /$1 [R=301,L] RewriteRule (.+)/comment-page /$1 [R=301,L] RewriteRule (.+)/trackback /$1 [R=301,L] RewriteRule (.+)/comments /$1 [R=301,L] RewriteRule (.+)/attachment /$1 [R=301,L] RewriteCond %{QUERY_STRING} ^attachment_id= [NC] RewriteRule (.*) $1? [R=301,L] RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /index.php [L] </IfModule> # END WordPress
Здесь главное правило (как, собственно, и везде) — не прервать существующий код, не нарушить связную фразу. Но, поскольку такие отдельные куски кода «обернуты» в заголовки, которые начинаются с # (например: # BEGIN WordPress … # END WordPress) — не вклиниться в них достаточно просто.
Добрые люди написали эти правила. Не будем сейчас подробно их разбирать. Скажу только, что это постановка 301 редиректа. Например, он направляет робота с адреса любого коммента на адрес первого комментария.
Что еще советуют сделать?
Если вы погуглите на эту тему, то найдете и другие «лекарства» от тысяч дублей. Например, есть предложение вычистить все правила, касающиеся комментариев, из файла robots.txt. Парадоксально, правда?
Идея такова: правила в файле robots не являются обязательными к исполнению для поисковых ботов. Это лишь рекомендация, наше пожелание. Поэтому роботы его видят, но спокойно идут по всем адресам и тащат их в поиск, наплевав на наши чувства… Еще один аргумент — некорректное написание правил в роботс — в результате поисковые боты просто игнорируют некоторые строки.
Ну, написать правильный robots — просто. Есть множество опубликованных примеров. У поисковых систем есть сервисы проверки. А что касается нечуткого отношения ботов к нашим просьбам… В этом я все-таки сомневаюсь. Ну с чего бы поисковикам сначала предлагать нам прописать все нужные правила индексации в особом файле, а потом коварно игнорировать их?! — Пока я вижу только эмоциональные доводы в пользу этого, но не логику.
Поэтому пока мой роботс остался прежним.
Читайте БлоготеЙ! на Google+ | |
Читайте БлоготеЙ! на Фейсбуке |
Да ему только волю дай, он столько дублей проиндексирует — за год не разгрести.
[Ответить]
Katyaru отвечает:
Август 13th, 2014 at 19:29
@ladosha, да, я понимаю, что информация-то не нова))) Но мой моск ее как-то игнорировал, ввиду избыточности. Но когда меня добрый и внимательный человек все-таки носом натыкал — я озаботилась и решила озаботить своих читателей!
[Ответить]
Очередной ужас! Я знала о кучах дублей, но не подозревала, что это от комментариев. Кстати, был шаблон у меня без древовидных — столбиком ставил — так поменяла его!
[Ответить]
Katyaru отвечает:
Август 13th, 2014 at 19:58
@Галина, во-во! Я тоже знала чисто теоретически. Даже про комментарии знала, но волосы встали дыбом, когда увидела эти «похожие результаты» в Гугле)))
[Ответить]
а я открыла эти дубли в роботсе 22июля, посмотрим что будет
[Ответить]
Katyaru отвечает:
Август 14th, 2014 at 10:16
@tanichka, да, интересно. Расскажешь!
[Ответить]
Katyaru, добрый день! Подскажите, а у вас плагин WordPress Thread Comment работает корректно, всё ок? Я тут его отыскала, а он древний, как незнамо что, уже шесть лет не обновлялся. Пойдет ли он нормально с WP 4? Возможно, будет достаточно прописать правила в .htaccess?
[Ответить]
Katyaru отвечает:
Октябрь 3rd, 2014 at 15:55
@Ксения, здравствуйте! Нареканий нет. Я там в коде даже покопалась — стерла какие-то части, которые мне лишними казались (ну, какие-то лишние возможности он генерировал — уже не вспомню, что именно) С капчей нормально сотрудничает. В общем, не вижу пока проблем.
Попробуйте только в .htaccess прописать и понаблюдайте, уменьшается ли количество мусорных ссылок в выдаче. Если будет уменьшаться и сократится в идеале до 0 — значит проблемы нет.
Но гадство заключается в том, что древовидные комменты все равно будут генерировать все новые и новые адреса… Когда я осознала это «распухание» сайта — захотелось его уничтожить кардинально)
[Ответить]
Ксения отвечает:
Октябрь 3rd, 2014 at 16:23
@Katyaru, т.е., вы хотите сказать, что даже с прописанными правилами в .htaccess древовидные комменты всё равно будут генериться? Или я неправильно поняла? Извините за дотошность, я просто сторонник как можно меньшего количества плагинов на сайте, поэтому если есть возможность как-то обойти их применение, стараюсь её использовать
[Ответить]
Katyaru отвечает:
Октябрь 3rd, 2014 at 16:33
@Ксения, насколько я понимаю, этот файл содержит правила доступа, перенаправления и т.д. А новые адреса (страницы для каждого коммента) все равно будут генерироваться вордпрессом. Другое дело, что боты поисковиков на них могут не попасть из-за редиректа.
[Ответить]