Правильная настройка Robots.txt

Home » Для сайта » Правильная настройка Robots.txt
44

Robots.txt — это текстовый файл, который располагается в корне сайта - http://site.ru/robots.txt. Главное его предназначение - это задавать определённые директивы поисковым системам - что и когда делать на сайте.

Содержание:

Самый простой Robots.txt

Самый простой robots.txt, который всем поисковым системам, разрешает всё индексировать, выглядит вот так:

User-agent: *
Disallow:

Если у директивы Disallow не стоит наклонный слеш в конце, то разрешены все страницы для индексации.

Такая директива полностью запрещает сайт к индексации:

User-agent: *
Disallow: /

User-agent - обозначает для кого предназначены директивы, звёздочка обозначает что для всех ПС, для Яндекса указывают User-agent: Yandex.

В справке Яндекса написано, что его поисковые роботы обрабатывают User-agent: *, но если присутствует User-agent: Yandex, User-agent: * игнорируется.

Директивы Disallow и Allow

Существуют две основные директивы:

Disallow – запретить

Allow – разрешить

Пример: На блоге мы запретили индексировать папку /wp-content/ где находятся файлы плагинов, шаблон и.т.п. Но так же там находятся изображения, которые должны быть проиндексированы ПС, для участия в поиске по картинкам. Для этого надо использовать такую схему:

User-agent: *
Allow: /wp-content/uploads/ # Разрешаем индексацию картинок в папке uploads
Disallow: /wp-content/

Порядок использования директив  имеет значение для Яндекса, если они распространяются на одни страницы или папки. Если вы укажите вот так:

User-agent: *
Disallow: /wp-content/
Allow: /wp-content/uploads/

Изображения не будут скачиваться роботом Яндекса с каталога /uploads/, потому что исполняется первая директива, которая запрещает весь доступ к папке wp-content.

Google относится проще и выполняет все директивы файла robots.txt, вне зависимости от их расположения.

Так же, не стоит забывать, что директивы со слешем и без, выполняют разную роль:

Disallow: /about  Запретит доступ ко всему каталогу site.ru/about/, так же не будут индексироваться страницы которые содержат about - site.ru/about.html, site.ru/aboutlive.html и.т.п.

Disallow: /about/ Запретит индексацию роботам страниц в каталоге site.ru/about/, а страницы по типу site.ru/about.html и.т.п. будут доступны к индексации.

Регулярные выражения в robots.txt

Поддерживается два символа, это:

* - подразумевает любой порядок символов.

Пример:

Disallow: /about* запретит доступ ко всем страницам, которые содержат about, в принципе и без звёздочки такая директива будет так же работать. Но в некоторых случаях это выражение не заменимо. Например, в одной категории имеются страницы с .html на конце и без, чтобы закрыть от индексации все страницы которые содержат html, прописываем вот такую директиву:

Disallow: /about/*.html

Теперь страницы site.ru/about/live.html закрыта от индексации, а страница site.ru/about/live открыта.

Ещё пример по аналогии:

User-agent: Yandex
Allow: /about/*.html #разрешаем индексировать
Disallow: /about/

Все страницы будут закрыты, кроме страниц которые заканчиваются на .html

$ - обрезает оставшуюся часть и обозначает конец строки.

Пример:

Disallow: /about - Эта директива robots.txt запрещает индексировать все страницы, которые начинаются с about, так же идёт запрет на страницы в каталоге /about/.

Добавив в конце символ доллара - Disallow: /about$ мы сообщим роботам, что нельзя индексировать только страницу /about, а каталог /about/, страницы /aboutlive и.т.п. можно индексировать.

Директива Sitemap

В этой директиве указывается путь к Карте сайта, в таком виде:

Sitemap: http://site.ru/sitemap.xml

Директива Host

Она предназначена только для Яндекса, потому что он с помощью неё определяет главные зеркала сайта и склеивает их по ней. Про склейку сайтов, в обеих поисковых системах, читайте в моём посте - Как я склеивал сайт в Яндексе и Google.

Указывается в таком виде:

Host: site.ru

Без http://, наклонных слешей и тому подобных вещей. Если у вас главное зеркало сайта с www, то пишите:

Host: www.site.ru

Пример robots.txt для WordPress

После того, когда были добавлены все нужные директивы, которые описаны выше. Вы должны получить примерно вот такой файл robots:

Скрытый текст

Это так сказать базовый вариант robots.txt для wordpress. Здесь присутствует два User-agent-a – один для всех и второй для Яндекса, где указывается директива Host.

Мета-теги robots

Существует возможность закрыть от индексации страницу или сайт не только файлом robots.txt, это можно сделать при помощи мета-тега.

<meta name="robots" content="noindex,nofollow">

Прописывать его надо в теге <head> и этот мета тег запретит индексировать сайт. В WordPress существуют плагины, которые позволяют выставлять такие мета теги, например – Platinum Seo Pack. С помощью него можно закрыть от индексации любую страницу, он использует мета-теги.

Директива Crawl-delay

С помощью этой директивы можно задать время, на которое должен прерываться поисковый бот, между скачиванием страниц сайта.

User-agent: *
Crawl-delay: 5

Таймаут между загрузкой двух страниц будет равен 5 секундам. Чтобы уменьшить нагрузку на сервер, обычно выставляют 15-20 секунд. Это директива нужны для больших, часто обновляемых сайтов, на которых поисковые боты просто «живут».

Для обычных сайтов/блогов эта директива не нужна, но можно таким образом ограничить поведение других не актуальных поисковых роботов (Rambler, Yahoo, Bing) и.т.п. Ведь они тоже заходят на сайт и индексируют его, создавая тем самым нагрузку на сервер.

Проверить robots.txt

Чтобы проверить robots.txt для Google, надо зайти в панель вебмастер:

robots


Конфигурация сайта -> Доступ для сканера -> Проверить robots.txt

Тут вы сможете проверять все директивы на работоспособность и экспериментировать с ними.

Проверить robots.txt для Яндекса можно тоже в его Панели Вебмастер, перейдя вот по этой ссылки.

Так же существуют сервисы генераторы robots.txt, которые помогут вас сделать базовые настройки, вот некоторые из них:

1. Seobook

генераторы роботса

2. 4seo.biz

генераторы роботса

На этом всё, спасибо за внимание и не забываем подписываться на обновление блога.


Всегда актуальная тема, про Заработок на блоге. Для вас будет полезно, несомненно.

Не забудьте подписаться Подписка через RSS-feed через rss и Следовать в Твиттере следовать в twitter-e — для получения обновлений.

Если вам понравился пост или блог, то подписывайтесь на обновление и следуйте за мной в Твиттере:

RSS подписка | Читать в Google | Мой Twitter

Подписаться на обновление по почте:

Метки: Для сайта

44 Сообщений

  1. Статейка потрясающая, все собрано воедино и не надо лазить по инету и искать решение на разные проблемы. Спс=)

  2. Оличная сатья, нашел ответ на свой вопрос. Ранее не знал о существовании Crawl-delay. Буду эксперементировать

  3. Привет! Статья получилась информативной, молодца. Как отдохнул с сеошниками на днях?

  4. Добрый день! спасибо за интересную статью. у меня такая проблема – стала анализировать количество страниц в Индексе гугла и обнаружила ссылки такого рода – он индексирует все подряд, включая сохраненные копии и служебные файлы. Каким обрахом я могу убрать эти страницы из индекса, чтобы не попасть при этом в бан?

    • Cospi:

      Запретить индексацию служебных файлов в роботсе, как описано в статье – Disallow: /служебные-файлы

  5. Если я хочу закрыть пагинацию в рубриках. А ссылки данных страниц имеют вид site.ru/category/about/page/2/
    Мне нужно добавить строку Disallow: /*/*/page/*/
    Правильно или есть запись полегче в плане символов?

    • Cospi:

      Лучше записать вот так: Disallow: /category/about/page Хотя ваша запись может быть тоже работает, надо просто проверить её.

  6. И ещё вопросик если можно. Накопилось вопросов очень много, информацию искал давно так, но нормального объяснения так и не нашел.
    Если я добавлю строку Disallow: /*?*
    Оно же будет запрещать все URL с знаком «?»
    И мне не придётся добавлять такие строки как
    Disallow: /?s=
    Disallow: /?p=
    Disallow: /?feed=*
    Disallow: /?replytocom=*
    Disallow: /?page_id=*
    Disallow: /?preview=*
    Правильно?

    • Cospi:

      Да правильно, правильность своего роботса можно всегда проверять в панели Вебмастер. Вводите директиву и потом вписываете урл для проверки и Яндекс покажит какие закрыты и по какой директиве их закрыли.

    • Да, но а как же страницы с публикациями? Они же /?p, зачем их запрещать к индексации командой Disallow: /?p=. Я у себя сделал только Disallow: /?cat
      Disallow: /?m

  7. Тэги обязательно закрывать в роботе?

  8. Зацените вот этот роботст http://www.auto-es.ru/robots.txt

  9. СПС автору за прикладную статейку без воды.

  10. urbix:

    Скажите пожалуйста, а зачем использовать директиву Disallow: /tag, ведь я так понимаю, через данную директиву мы даём понять боту, что нужно запретить к индексации метки, а зачем? ведь метки участвуют в продвижении.

    • Cospi:

      Метки – это дубликаты контента на сайте, если вы начнёте продовать ссылки и у вас будет очень много открытых меток для индексации, то попадёте под АГС, если у вас на сайте 5-10 меток, то это не страшно.

  11. Уже столько информации прочитала по настройке роботса, и все равно толком никак не получается. Уже каша в голове. У Вас вроде как систематически расписано. Попробую настроить заново еще и по Вашим рекомендациям.

    • Cospi:

      Потом можете выложить ваш файлик, посмотрим вместе на него, если что не правильно, помогу исправить.

  12. Здравствуйте! Извините что не по теме, подскажите пож. название плагина для создания таких же форм для цитирования кодов в постах.

  13. Благодарю, установил, не могу разобраться как пользоваться. Есть инструкция?

    • Cospi:

      После активации, в редакторе добовляется дополнительная кнопка cc, выделяете код в тексте, нажимаете эту кнопку и вводите название языка для кода, который вы выделяете. Например – html, php, css и.т.п. Все языки описаны в файле readme.txt в папке с плагином.

  14. Запутался с robots но составил такое:
    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /xmlrpc.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /page/
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/
    Disallow: */trackback/
    Disallow: */feed/
    Disallow: */comments/
    Disallow: /?feed=
    Disallow: /?s=
    Disallow: /*?*
    Disallow: /*?

    Allow: /wp-content/uploads

    # Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    # Internet Archiver Wayback Machine
    User-agent: ia_archiver
    Disallow: /
    # digg mirror
    User-agent: duggmirror
    Disallow: /
    Sitemap: http://www.mlm-to4ka.ru/sitemap.xml
    Disallow: /tag

    может что-то лишнее? если не влом подскажите)

    • Cospi:

      Я бы не стал писать отдельные блоки для Адсенс, гугл картинок, всё это и есть лишнее. Верхняя часть вроде всё не нужное закрывает, только добавте ещё такой же блок для Яндекса с директивой host.

      И ссылку на карту сайта не правильно указали.

  15. Спасибо за развернутый ответ) все как то руки не доходили до робот.тхт, на выходных попробую

  16. А нужно ли запрещать гуглу индексацию комментариев?

    • Cospi:

      Вы про ссылки на ответы (reply)? То лучше их закрыть в роботсе, хотя часто Гугл их игнорирует.

      • Я в принципе хочу узнать надо ли писать там что-то типа такого: Disallow: /comments/

        • Cospi:

          Нет, потому что таких ссылок на сайте нету.

          • Странно, а я смотрел другие посты по этой теме, там почему-то писали. Объясняя это тем, что хотели скрыть комментарии от поисковиков.

          • Cospi:

            Коментарии это не ссылка, а текст и скрыть их можно с помощью тегов noindex.

  17. seo-noob:

    Уже долго ищу и не могу найти конкретную информацию по пунктам, что нужно запретить для индексирования, а что оставить.
    Понял, что картинки лучше оставить для поиска по картинкам. А что насчет модулей, плагинов, флеш, pdf, doc, css файлов и т.д.?
    Скажите, пожалуйста, что нужно, а что нет?!

  18. User-agent: *
    Disallow: /forum/
    Disallow: /feedback.html
    Disallow: /reg.html
    Disallow: /login-enter.html
    Disallow: /order.html
    Disallow: /login.html
    Host: http://www.site.ru

    Вопрос в том, правильно ли я прописал странички с html на конце? ведь у меня не закрывает слэшь (/).

  19. Ян:

    Большое спасибо очень полезная информация

  20. Спасибо за статью! Очень помогла!

    • Cospi:

      Пожалуйста, подписывайтесь на обноление сайта. Ещё будет очень много интерестных постов.

  21. Наконецто нашел, спасибо!:))

Оставь Комментарий

Подписаться на обновление, без комментирования:

© 2011 Cospi.ru| All rights reserved | Карта сайта.
Proudly designed by Samopal.