Привет дорогие читатели!
В комментариях на мою статью Оптимизация блога WordPress под поисковые системы, Renar написал что я не рассмотрел правильность заполнения файла robots.txt. И правда, правильно заполнить файл robots.txt очень важно. Я подумал, что зачем, если есть плагин sitemap generator. Но ведь есть сайты, блоги которые не ставят этот плагин, либо он для них непредназначен. По этому я восполню недостаток, который я упустил, и опишу, как работать с robots.txt, но раз эта тема не раз обсуждалась,
то ещё опишу работу с плагином sitemap generator.
Атрибуты robots.txt
Я бы выделил 2 основных атрибута. По очереди о них:
User-agent — этот атрибут, который обычно указывает, для какого поискового робота идёт команда. Например yandexbot, googlebot и т.д. Если поставить просто: User-agent: * — это означает, что команда,
которую вы пишете, предназначена для всех поисковых роботов.
Disallow — этот атрибут показывает, что не нужно индексировать. Либо разрешает индексировать полностью все страницы. Будет проще если я приведу несколько примеров:
User-agent: *
Disallow: /
Запрещает индексировать весь сайт для всех поисковых роботов
User-agent: *
Disallow:
Разрешает всем роботам индексировать весь сайт.
Буду рассматривать заполнение robot.txt на основе блога wordpress. У wordpress’а есть файлы, которые индексировать совсем не желательно. Это обычно те файлы, которые бесполезны для ваших посетителей, либо страницы, которые не имеют нужный формат. Например, зачем вам индексировать RSS, wp-login.php, и т.д. Эти файлы только замедлят индексацию действительно нужных страниц. По этому, сделайте работу робота легче, и он вас отблагодарит ;) подарит вам лёгкую индексацию.
Без лишних комментариев, расскажу, как у меня настроит роботс.тхт:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-admin/
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Allow: /wp-content/uploads/
Чуть не забыл. Нужно писать атрибуты строчка в строчку. Это всё
считается как одна команда.
Ошибки в этом файле, несмотря на его легкое понимание, встречается уйма. Если вы сомневаетесь, в том что сможете без ошибок сделать robots.txt, то лучше воспользуйтесь онлайн сервисами — генераторами robots.txt, а то иначе вы можете просто напросто запретить вообще индексировать ваш сайт.
Для блога wordpress, лучше использовать совместно с robots.txt ещё и плагин sitemap generator. Этот замечательный плагин выполняет ряд полезных функций. А именно, создаёт xml файл, в котором ставит ссылки на страницы, которые нужно проиндексировать.
Как и обещал, несколько советов по настройке этого плагина. Вообще этот плагин по умолчанию настроит нормально, однако хотел бы предупредить, что в содержание карты сайта, не нужно включать архивы, категории, страницы меток. Включение этих разделов в карту сайта, приведёт к индексированию дублированного контента, а это, скажем так — не хорошо. Обязательно включите разделы: статьи, домашняя страница, статические страницы.
Другой совет, не трогать приоритеты страниц, а оставить их по умолчанию на автомате. Иначе яша может разозлиться.
Ну вот в принципе и есть всё, что входит в основу знаний о robots.txt и карте сайта. Хотя для справки, есть ещё и теги robots meta. Но о них не в этой статье.
Если вы хотите узнать более об этом файле, то можете посетить сайт robotstxt.org.ru а так же информация о том, как проверить свой robots.txt