Robots.txt — это текстовый файл, который располагается в корне сайта - http://site.ru/robots.txt. Главное его предназначение - это задавать определённые директивы поисковым системам - что и когда делать на сайте.

Содержание:
- Самый простой Robots.txt
- Директивы Disallow и Allow
- Регулярные выражения в robots.txt
- Директива Sitemap
- Директива Host
- Пример robots.txt для WordPress
- Мета теги robots
- Директива Crawl-delay
- Проверить robots.txt
Самый простой Robots.txt
Самый простой robots.txt, который всем поисковым системам, разрешает всё индексировать, выглядит вот так:
Disallow:
Если у директивы Disallow не стоит наклонный слеш в конце, то разрешены все страницы для индексации.
Такая директива полностью запрещает сайт к индексации:
Disallow: /
User-agent - обозначает для кого предназначены директивы, звёздочка обозначает что для всех ПС, для Яндекса указывают User-agent: Yandex.
В справке Яндекса написано, что его поисковые роботы обрабатывают User-agent: *, но если присутствует User-agent: Yandex, User-agent: * игнорируется.
Директивы Disallow и Allow
Существуют две основные директивы:
Disallow – запретить
Allow – разрешить
Пример: На блоге мы запретили индексировать папку /wp-content/ где находятся файлы плагинов, шаблон и.т.п. Но так же там находятся изображения, которые должны быть проиндексированы ПС, для участия в поиске по картинкам. Для этого надо использовать такую схему:
Allow: /wp-content/uploads/ # Разрешаем индексацию картинок в папке uploads
Disallow: /wp-content/
Порядок использования директив имеет значение для Яндекса, если они распространяются на одни страницы или папки. Если вы укажите вот так:
Disallow: /wp-content/
Allow: /wp-content/uploads/
Изображения не будут скачиваться роботом Яндекса с каталога /uploads/, потому что исполняется первая директива, которая запрещает весь доступ к папке wp-content.
Google относится проще и выполняет все директивы файла robots.txt, вне зависимости от их расположения.
Так же, не стоит забывать, что директивы со слешем и без, выполняют разную роль:
Disallow: /about Запретит доступ ко всему каталогу site.ru/about/, так же не будут индексироваться страницы которые содержат about - site.ru/about.html, site.ru/aboutlive.html и.т.п.
Disallow: /about/ Запретит индексацию роботам страниц в каталоге site.ru/about/, а страницы по типу site.ru/about.html и.т.п. будут доступны к индексации.
Регулярные выражения в robots.txt
Поддерживается два символа, это:
* - подразумевает любой порядок символов.
Пример:
Disallow: /about* запретит доступ ко всем страницам, которые содержат about, в принципе и без звёздочки такая директива будет так же работать. Но в некоторых случаях это выражение не заменимо. Например, в одной категории имеются страницы с .html на конце и без, чтобы закрыть от индексации все страницы которые содержат html, прописываем вот такую директиву:
Теперь страницы site.ru/about/live.html закрыта от индексации, а страница site.ru/about/live открыта.
Ещё пример по аналогии:
Allow: /about/*.html #разрешаем индексировать
Disallow: /about/
Все страницы будут закрыты, кроме страниц которые заканчиваются на .html
$ - обрезает оставшуюся часть и обозначает конец строки.
Пример:
Disallow: /about - Эта директива robots.txt запрещает индексировать все страницы, которые начинаются с about, так же идёт запрет на страницы в каталоге /about/.
Добавив в конце символ доллара - Disallow: /about$ мы сообщим роботам, что нельзя индексировать только страницу /about, а каталог /about/, страницы /aboutlive и.т.п. можно индексировать.
Директива Sitemap
В этой директиве указывается путь к Карте сайта, в таком виде:
Директива Host
Она предназначена только для Яндекса, потому что он с помощью неё определяет главные зеркала сайта и склеивает их по ней. Про склейку сайтов, в обеих поисковых системах, читайте в моём посте - Как я склеивал сайт в Яндексе и Google.
Указывается в таком виде:
Без http://, наклонных слешей и тому подобных вещей. Если у вас главное зеркало сайта с www, то пишите:
Пример robots.txt для WordPress
После того, когда были добавлены все нужные директивы, которые описаны выше. Вы должны получить примерно вот такой файл robots:
Это так сказать базовый вариант robots.txt для wordpress. Здесь присутствует два User-agent-a – один для всех и второй для Яндекса, где указывается директива Host.
Мета-теги robots
Существует возможность закрыть от индексации страницу или сайт не только файлом robots.txt, это можно сделать при помощи мета-тега.
Прописывать его надо в теге <head> и этот мета тег запретит индексировать сайт. В WordPress существуют плагины, которые позволяют выставлять такие мета теги, например – Platinum Seo Pack. С помощью него можно закрыть от индексации любую страницу, он использует мета-теги.
Директива Crawl-delay
С помощью этой директивы можно задать время, на которое должен прерываться поисковый бот, между скачиванием страниц сайта.
Crawl-delay: 5
Таймаут между загрузкой двух страниц будет равен 5 секундам. Чтобы уменьшить нагрузку на сервер, обычно выставляют 15-20 секунд. Это директива нужны для больших, часто обновляемых сайтов, на которых поисковые боты просто «живут».
Для обычных сайтов/блогов эта директива не нужна, но можно таким образом ограничить поведение других не актуальных поисковых роботов (Rambler, Yahoo, Bing) и.т.п. Ведь они тоже заходят на сайт и индексируют его, создавая тем самым нагрузку на сервер.
Проверить robots.txt
Чтобы проверить robots.txt для Google, надо зайти в панель вебмастер:

Тут вы сможете проверять все директивы на работоспособность и экспериментировать с ними.
Проверить robots.txt для Яндекса можно тоже в его Панели Вебмастер, перейдя вот по этой ссылки.
Так же существуют сервисы генераторы robots.txt, которые помогут вас сделать базовые настройки, вот некоторые из них:
1. Seobook

2. 4seo.biz

На этом всё, спасибо за внимание и не забываем подписываться на обновление блога.
Всегда актуальная тема, про Заработок на блоге. Для вас будет полезно, несомненно.
Не забудьте подписаться
через rss
и
следовать в twitter-e
— для получения обновлений.
Подписаться на обновление по почте:
Статейка потрясающая, все собрано воедино и не надо лазить по инету и искать решение на разные проблемы. Спс=)
Пожалуйста ))
ok
Оличная сатья, нашел ответ на свой вопрос. Ранее не знал о существовании Crawl-delay. Буду эксперементировать
Привет! Статья получилась информативной, молодца. Как отдохнул с сеошниками на днях?
Да какой там отдых, это работа была
Добрый день! спасибо за интересную статью. у меня такая проблема – стала анализировать количество страниц в Индексе гугла и обнаружила ссылки такого рода – он индексирует все подряд, включая сохраненные копии и служебные файлы. Каким обрахом я могу убрать эти страницы из индекса, чтобы не попасть при этом в бан?
Запретить индексацию служебных файлов в роботсе, как описано в статье – Disallow: /служебные-файлы
Если я хочу закрыть пагинацию в рубриках. А ссылки данных страниц имеют вид site.ru/category/about/page/2/
Мне нужно добавить строку Disallow: /*/*/page/*/
Правильно или есть запись полегче в плане символов?
Лучше записать вот так: Disallow: /category/about/page Хотя ваша запись может быть тоже работает, надо просто проверить её.
И ещё вопросик если можно. Накопилось вопросов очень много, информацию искал давно так, но нормального объяснения так и не нашел.
Если я добавлю строку Disallow: /*?*
Оно же будет запрещать все URL с знаком «?»
И мне не придётся добавлять такие строки как
Disallow: /?s=
Disallow: /?p=
Disallow: /?feed=*
Disallow: /?replytocom=*
Disallow: /?page_id=*
Disallow: /?preview=*
Правильно?
Да правильно, правильность своего роботса можно всегда проверять в панели Вебмастер. Вводите директиву и потом вписываете урл для проверки и Яндекс покажит какие закрыты и по какой директиве их закрыли.
Да, но а как же страницы с публикациями? Они же /?p, зачем их запрещать к индексации командой Disallow: /?p=. Я у себя сделал только Disallow: /?cat
Disallow: /?m
У меня ЧПУ стоит, поэтому таких страниц нету.
Тэги обязательно закрывать в роботе?
Нет, но лучше закрыть – это ведь дубли контента, как впринципи рубрики и архивы.
А у меня индексируются тэги.
Зацените вот этот роботст http://www.auto-es.ru/robots.txt
Да… человеку делать просто нечего
СПС автору за прикладную статейку без воды.
Скажите пожалуйста, а зачем использовать директиву Disallow: /tag, ведь я так понимаю, через данную директиву мы даём понять боту, что нужно запретить к индексации метки, а зачем? ведь метки участвуют в продвижении.
Метки – это дубликаты контента на сайте, если вы начнёте продовать ссылки и у вас будет очень много открытых меток для индексации, то попадёте под АГС, если у вас на сайте 5-10 меток, то это не страшно.
Уже столько информации прочитала по настройке роботса, и все равно толком никак не получается. Уже каша в голове. У Вас вроде как систематически расписано. Попробую настроить заново еще и по Вашим рекомендациям.
Потом можете выложить ваш файлик, посмотрим вместе на него, если что не правильно, помогу исправить.
Здравствуйте! Извините что не по теме, подскажите пож. название плагина для создания таких же форм для цитирования кодов в постах.
Это CodeColorer
Благодарю, установил, не могу разобраться как пользоваться. Есть инструкция?
После активации, в редакторе добовляется дополнительная кнопка cc, выделяете код в тексте, нажимаете эту кнопку и вводите название языка для кода, который вы выделяете. Например – html, php, css и.т.п. Все языки описаны в файле readme.txt в папке с плагином.
Запутался с robots но составил такое:
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /page/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Internet Archiver Wayback Machine
User-agent: ia_archiver
Disallow: /
# digg mirror
User-agent: duggmirror
Disallow: /
Sitemap: http://www.mlm-to4ka.ru/sitemap.xml
Disallow: /tag
может что-то лишнее? если не влом подскажите)
Я бы не стал писать отдельные блоки для Адсенс, гугл картинок, всё это и есть лишнее. Верхняя часть вроде всё не нужное закрывает, только добавте ещё такой же блок для Яндекса с директивой host.
И ссылку на карту сайта не правильно указали.
Спасибо за развернутый ответ) все как то руки не доходили до робот.тхт, на выходных попробую
А нужно ли запрещать гуглу индексацию комментариев?
Вы про ссылки на ответы (reply)? То лучше их закрыть в роботсе, хотя часто Гугл их игнорирует.
Я в принципе хочу узнать надо ли писать там что-то типа такого: Disallow: /comments/
Нет, потому что таких ссылок на сайте нету.
Странно, а я смотрел другие посты по этой теме, там почему-то писали. Объясняя это тем, что хотели скрыть комментарии от поисковиков.
Коментарии это не ссылка, а текст и скрыть их можно с помощью тегов noindex.
Уже долго ищу и не могу найти конкретную информацию по пунктам, что нужно запретить для индексирования, а что оставить.
Понял, что картинки лучше оставить для поиска по картинкам. А что насчет модулей, плагинов, флеш, pdf, doc, css файлов и т.д.?
Скажите, пожалуйста, что нужно, а что нет?!
User-agent: *
Disallow: /forum/
Disallow: /feedback.html
Disallow: /reg.html
Disallow: /login-enter.html
Disallow: /order.html
Disallow: /login.html
Host: http://www.site.ru
Вопрос в том, правильно ли я прописал странички с html на конце? ведь у меня не закрывает слэшь (/).
Не понял вопроса и что у вас там закрывает слеш. Проверьте правильность нв сервисе http://webmaster.yandex.ua/site/robots.xml
Большое спасибо очень полезная информация
Спасибо за статью! Очень помогла!
Пожалуйста, подписывайтесь на обноление сайта. Ещё будет очень много интерестных постов.
Наконецто нашел, спасибо!:))