Создание файла robots.txt на примере wordpress блога

Назначение файла robots.txt

К основным функциям выполняемым файлом robots относятся:

закрытие служебного и конфиденциального контента от индексирования в поисковиках
закрытие страниц с похожим или дублированным контентом от индексации

Закрытие страниц от индексации естественно не означает, что она закрыта для просмотра, кроме того, это не означает даже, что страница не появится в поисковой выдаче, так как может быть найдена по ссылкам. Просто робот не будет загружать содержание этой страницы и в кэше поисковика ее тоже не будет.

Закрытие служебной информации для wordpress

WordPress 3.0 имеет три служебных каталога и в соответствии с первой функцией файла robots их надо закрыть от индексации:

Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/

В представленном примере блог располагается в каталоге «blog» сайта.

Кроме перечисленных служебных каталогов в недрах страниц блога запрятаны ссылки еще на два служебных файла, расположенных в корневой директории блога — xmlrpc.php и wp-login.php, их тоже надо закрыть:

Disallow: /blog/wp-login.php
Disallow: /blog/xmlrpc.php

Теперь служебная информации закрыта.

Борьба с дублированнием контента

Практически на каждой страницы блога есть ссылка на trackback URL для данной страницы — url_страницы/trackback/. Этот URL в конечном итоге с помощью временного перенаправления 302 указывает на url_страницы. Есть небольшая вероятность, что поисковик может связать содержание с этим url, поэтому раньше я закрывал эти url:

Disallow: /blog/*/trackback

Теперь же я это делать перестал — результат я скоро проверю.

При включенном режиме постоянных ссылок при задании удобного URL wordpress все равно генерирует также стандартную ссылку с «?p=». Я перестал закрывать эти ссылки, так как они перенаправляются постоянным редиректом 301 на удобный URL и, кроме того, wordpress указывает атрибут сanonical в ссылке на читаемый URL.

WordPress группирует посты по датам, категориям и меткам и при этом создается дублирование контента. В случае ценности таких группировок, закрывать их в роботе не надо, поисковик разбирется сам. В маленьком и не очень часто обновляемом блоге вреда от этого больше чем пользы. Поэтому я закрываю все группировки роботом:

Disallow: /blog/2009/
Disallow: /blog/2010/
Disallow: /blog/2011/
Disallow: /blog/tag/
Disallow: /blog/category/

RSS ленты и комментарии

RSS ленты (фиды) закрывать не надо, так как они способствуют быстрейшей индексации блога и не создают дублированного контента. Комментарии это дело вкуса — я не закрываю.

Созданный файл robots.txt

User-agent: *
Disallow: /blog/wp-login.php
Disallow: /blog/wp-admin/
Disallow: /blog/wp-includes/
Disallow: /blog/wp-content/
Disallow: /blog/xmlrpc.php
Disallow: /blog/2009/
Disallow: /blog/2010/
Disallow: /blog/2011/
Disallow: /blog/category/
Disallow: /blog/tag/

p.s. 1.04.2012
нашел еще группировку которую можно закрыть, если есть только один блоггер: /blog/author/