настройка robots.txt и плагина sitemap generator

Привет дорогие читатели!
В комментариях на мою статью Оптимизация блога WordPress под поисковые системы, Renar написал что я не рассмотрел правильность заполнения файла robots.txt. И правда, правильно заполнить файл robots.txt очень важно. Я подумал, что зачем, если есть плагин sitemap generator. Но ведь есть сайты, блоги которые не ставят этот плагин, либо он для них непредназначен. По этому я восполню недостаток, который я упустил, и опишу, как работать с robots.txt, но раз эта тема не раз обсуждалась,
то ещё опишу работу с плагином sitemap generator.

robots.txt Во первых, что такое robots.txt — это файл который «живёт» в корне сайта, и говорит поисковым системам, какие страницы нужно индексировать, а какие нет. Это служит для более конкретного задания индексации, и чтобы предоставить информацию о своём сайте, поисковому роботу. По этому, первым делом, при индексации, поисковый робот запрашивает файл robots.txt.

Атрибуты robots.txt

Я бы выделил 2 основных атрибута. По очереди о них:

User-agent — этот атрибут, который обычно указывает, для какого поискового робота идёт команда. Например yandexbot, googlebot и т.д. Если поставить просто: User-agent: * — это означает, что команда,
которую вы пишете, предназначена для всех поисковых роботов.

Disallow — этот атрибут показывает, что не нужно индексировать. Либо разрешает индексировать полностью все страницы. Будет проще если я приведу несколько примеров:

User-agent: *
Disallow: /

Запрещает индексировать весь сайт для всех поисковых роботов

User-agent: *
Disallow:

Разрешает всем роботам индексировать весь сайт.

Буду рассматривать заполнение robot.txt на основе блога wordpress. У wordpress’а есть файлы, которые индексировать совсем не желательно. Это обычно те файлы, которые бесполезны для ваших посетителей, либо страницы, которые не имеют нужный формат. Например, зачем вам индексировать RSS, wp-login.php, и т.д. Эти файлы только замедлят индексацию действительно нужных страниц. По этому, сделайте работу робота легче, и он вас отблагодарит ;) подарит вам лёгкую индексацию.

Без лишних комментариев, расскажу, как у меня настроит роботс.тхт:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/

Чуть не забыл. Нужно писать атрибуты строчка в строчку. Это всё
считается как одна команда.

картинка файла robots.txt
Ошибки в этом файле, несмотря на его легкое понимание, встречается уйма. Если вы сомневаетесь, в том что сможете без ошибок сделать robots.txt, то лучше воспользуйтесь онлайн сервисами — генераторами robots.txt, а то иначе вы можете просто напросто запретить вообще индексировать ваш сайт.

Для блога wordpress, лучше использовать совместно с robots.txt ещё и плагин sitemap generator. Этот замечательный плагин выполняет ряд полезных функций. А именно, создаёт xml файл, в котором ставит ссылки на страницы, которые нужно проиндексировать.

Как и обещал, несколько советов по настройке этого плагина. Вообще этот плагин по умолчанию настроит нормально, однако хотел бы предупредить, что в содержание карты сайта, не нужно включать архивы, категории, страницы меток. Включение этих разделов в карту сайта, приведёт к индексированию дублированного контента, а это, скажем так — не хорошо. Обязательно включите разделы: статьи, домашняя страница, статические страницы.
Другой совет, не трогать приоритеты страниц, а оставить их по умолчанию на автомате. Иначе яша может разозлиться.

Ну вот в принципе и есть всё, что входит в основу знаний о robots.txt и карте сайта. Хотя для справки, есть ещё и теги robots meta. Но о них не в этой статье.
Если вы хотите узнать более об этом файле, то можете посетить сайт robotstxt.org.ru а так же информация о том, как проверить свой robots.txt

10 комментариев on "настройка robots.txt и плагина sitemap generator"


  1. Ребята, объясните «блондинке» как правильно сделать запрет индексации рубрики в обоих плагинах.
    Вроде сделала, да что-то начала сомневаться в правильности своих действий


  2. Спасибо за интересную статью! Очень помогла мне. Не знал, как решить вопрос с индексацией дублированного контента на сайте. Ваша публикация очень помогла! Еще раз спасибо :)


  3. Хорошо расписал, у самого также =) только еще добалена директива host, а то Яшкин робот мой блог не видит, ему видите ли старый, с http://www., нравится…
    Платон Щукин всё обещает что разберутся, но пока ничего…


  4. Tolyana, Правильно. Я же сделал пример на wordpress, но у каждого свой движек, и вы должны знать, что нужно индексировать, а что нет. И выставляйте роботс так как вам нужно. Напримет то, что не приведёт вам поситителей, лучше исключить из индекса, т.к. такие страницы могут только тормозить робота и замедлит вашу индексацию. Это подобно хорошо смазанному велосипеду, но если велосипед плохо или вообще не смазан, это создаёт нагрузку, когда на нём едешь. Так же и тут.


  5. Ну тут для вордпреса. У меня например блог на ДЛЕ. Я подозреваю, что для него нужен другой роботс

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *