А мы остановимся на создании robots именно для phpBB3. Сразу оговорюсь, что предлагаемый далее вариант не касается случаев, когда у вас установлен SEO-мод или расширение для преобразования ссылок в "человеко-понятный" вид (например, мод Ultimate SEO Url). Для SEO robots будет другим, более подробно вы можете прочитать в теме по установке мода, см. пункт 11: phpBB SEO Ultimate SEO URL. Во всех остальных случаях, как показывает практика, самым оптимальным для phpBB3 будет следующий образец:
Код: Выделить всё
User-agent: *
Disallow: /adm/
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /index.php?
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewonline.php
Disallow: /*&st=*
Disallow: /*&sk=*
Disallow: /*&sd=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /view*&start=0$
# Google Image
User-agent: Googlebot-Image
Disallow:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
User-agent: Yandex
Disallow: /adm/
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /index.php?
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewonline.php
Disallow: /*&st=*
Disallow: /*&sk=*
Disallow: /*&sd=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /view*&start=0$
Host: www.phpbb-work.ru
Sitemap: http://www.phpbb-work.ru/sitemap.php
Clean-param: sid /index.php
Clean-param: sid /viewforum.php
Clean-param: sid /viewtopic.php
Disallow: /viewtopic.php?t=*
, если у вас версия phpBB >= 3.3.5, установлен hook mini seo (для 3.0), SEO Topic & Canonical URL (для 3.1+) или каким-то иным образом убран идентификатор форума из ссылок на темы.Например, возьмём этот форум: http://www.trworkshop.net/forum/
Форум работает давно и имеет предлагаемый выше вид robots.txt. В этом образце закрыты все известные мне возможные дубли. Если, исходя из общего числа сообщений на форуме (~800 тыс.) и количества сообщений на каждой странице темы (20), рассчитать примерное общее количество полезных ссылок на форуме (40 тыс.), а затем посмотреть индексацию форума в Яндексе, то увидим, что приблизительно рассчитанное число совпадает с количеством ссылок в индексе яндекса: ~40 тыс. Следовательно, используемый на форуме robots полностью выполняет возложенную на него функцию: убирает дублированный контент. Индексация в Яндексе смотрится следующим образом:
url:www.ваш домен* | url:ваш домен*
. В Гугле: site:ваш домен
Также можно сделать анализ сайта при помощи небезызвестного ресурса pr-cy, который покажет примерно те же самые результаты. Сайт занимает первые позиции в поисковых системах.
ВАЖНЫЕ рекомендации по созданию robots.txt:
1) Не копируйте robots с этого или любого другого форума, он дан лишь для примера и вам может не подойти. Копируйте универсальный образец из данного мной кода и затачивайте под свой сайт.
2) Если ваш форум расположен в корневой директории домена, как, например, мой форум, то данный мной образец robots.txt подойдёт вам практически без изменений. Если же форум расположен в подпапке, например
адрес_домена/forum/
, то все правила следует переписать с учётом этого. Например, вместо Disallow: /adm/
будет Disallow: /forum/adm/
, вместо Clean-param: sid /index.php
будет Clean-param: sid /forum/index.php
, и т.д. Если папка с вашим форумом имеет имя не forum
, а какое-то другое название, то используйте его вместо forum
. Директиву Sitemap:
нужно включать в robots только тогда, когда у вас установлена карта сайта для ботов.Сам robots всегда должен находиться в корневой директории домена.
3) Адрес
www.phpbb-work.ru
из данного мной образца везде нужно заменить на адрес своего собственного сайта. Если ваш сайт НЕ новый и уже проиндексирован в поисковых системах, то сначала нужно узнать, какой адрес ("зеркало") сайта является для поисковиков основным: с www.
или без www.
. Эту вещь я предпочитаю спрашивать у самих поисковиков. Например:- видим, что для моего сайта основным является адрес с
www.
. У вас может быть иначе. Если показатели смешанные (выдаются результаты как с www, так и без), то выбирайте тот вариант, в котором проиндексированных ссылок больше. Если сайт совсем новый, то вам предстоит выбрать основной адрес самостоятельно, руководствуясь собственными личными предпочтениями. В идеале нужно произвести склейку зеркал (сделать серверный редирект с не основного варианта на основной), чтобы все страницы сайта были доступны по одному единственному выбранному вами образцу, это позволит избежать дублирования контента, которое не приветствуется поисковиками.
Подробнее о зеркалах сайта можно прочитать в справке Яндекса: http://help.yandex.ru/webmaster/yandex- ... irrors.xml
4) И последнее: завершив создание robots, обязательно проверьте его на правильность и узнайте, какие страницы вашего форума будут индексироваться при обходе роботом, а какие - нет. Сделать это можно в специальном сервисе Яндекса - http://webmaster.yandex.ru/robots.xml