robots.txt для форума phpbb

Управление индексацией форума с помощью специального файла

Обсуждаем здесь всё, что связано с оптимизацией форума под поисковые системы (Яндекс, Гугл и др.) и улучшением позиций в поисковой выдаче.
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

robots.txt - это файл, специально предназначенный для указания поисковой системе, какие части сайта нужно индексировать, а какие - нет. Когда робот-поисковик заходит на сайт (или форум), то он ищет robots.txt в корневой директории сайта, и если находит, то индексирует сайт в соответствии с инструкциями, находящимися в этом файле. Чаще всего от индексации закрываются так называемые "дубли" страниц, когда одна и та же страница бывает доступна по двум или более адресам. Поисковики негативно относятся к дублированию контента и даже могут применить к вашему сайту санкции из-за него. Описывать все правила и нюансы работы с robots.txt я не буду, вы можете найти их здесь: http://help.yandex.ua/webmaster/control ... ts-txt.xml

А мы остановимся на создании robots именно для phpBB3. Сразу оговорюсь, что предлагаемый далее вариант не касается случаев, когда у вас установлен SEO-мод или расширение для преобразования ссылок в "человеко-понятный" вид (например, мод Ultimate SEO Url). Для SEO robots будет другим, более подробно вы можете прочитать в теме по установке мода, см. пункт 11: phpBB SEO Ultimate SEO URL. Во всех остальных случаях, как показывает практика, самым оптимальным для phpBB3 будет следующий образец:

Код: Выделить всё

User-agent: *
Disallow: /adm/
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /index.php?
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewonline.php
Disallow: /*&st=*
Disallow: /*&sk=*
Disallow: /*&sd=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /view*&start=0$

# Google Image
User-agent: Googlebot-Image
Disallow:

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

User-agent: Yandex
Disallow: /adm/
Disallow: /faq.php
Disallow: /mcp.php
Disallow: /index.php?
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewonline.php
Disallow: /*&st=*
Disallow: /*&sk=*
Disallow: /*&sd=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /view*&start=0$

Host: www.phpbb-work.ru
Sitemap: http://www.phpbb-work.ru/sitemap.php

Clean-param: sid /index.php
Clean-param: sid /viewforum.php
Clean-param: sid /viewtopic.php
Внимание! Уберите из представленного выше robots строчку Disallow: /viewtopic.php?t=*, если у вас версия phpBB >= 3.3.5, установлен hook mini seo (для 3.0), SEO Topic & Canonical URL (для 3.1+) или каким-то иным образом убран идентификатор форума из ссылок на темы.

Например, возьмём этот форум: http://www.trworkshop.net/forum/
Форум работает давно и имеет предлагаемый выше вид robots.txt. В этом образце закрыты все известные мне возможные дубли. Если, исходя из общего числа сообщений на форуме (~800 тыс.) и количества сообщений на каждой странице темы (20), рассчитать примерное общее количество полезных ссылок на форуме (40 тыс.), а затем посмотреть индексацию форума в Яндексе, то увидим, что приблизительно рассчитанное число совпадает с количеством ссылок в индексе яндекса: ~40 тыс. Следовательно, используемый на форуме robots полностью выполняет возложенную на него функцию: убирает дублированный контент. Индексация в Яндексе смотрится следующим образом: url:www.ваш домен* | url:ваш домен*. В Гугле: site:ваш домен
index.png
index.png (7.37 КБ) 24429 просмотров
index.png
index.png (7.37 КБ) 24429 просмотров
Также можно сделать анализ сайта при помощи небезызвестного ресурса pr-cy, который покажет примерно те же самые результаты. Сайт занимает первые позиции в поисковых системах.

ВАЖНЫЕ рекомендации по созданию robots.txt:

1) Не копируйте robots с этого или любого другого форума, он дан лишь для примера и вам может не подойти. Копируйте универсальный образец из данного мной кода и затачивайте под свой сайт.

2) Если ваш форум расположен в корневой директории домена, как, например, мой форум, то данный мной образец robots.txt подойдёт вам практически без изменений. Если же форум расположен в подпапке, например адрес_домена/forum/, то все правила следует переписать с учётом этого. Например, вместо Disallow: /adm/ будет Disallow: /forum/adm/, вместо Clean-param: sid /index.php будет Clean-param: sid /forum/index.php, и т.д. Если папка с вашим форумом имеет имя не forum, а какое-то другое название, то используйте его вместо forum. Директиву Sitemap: нужно включать в robots только тогда, когда у вас установлена карта сайта для ботов.
Сам robots всегда должен находиться в корневой директории домена.

3) Адрес www.phpbb-work.ru из данного мной образца везде нужно заменить на адрес своего собственного сайта. Если ваш сайт НЕ новый и уже проиндексирован в поисковых системах, то сначала нужно узнать, какой адрес ("зеркало") сайта является для поисковиков основным: с www. или без www.. Эту вещь я предпочитаю спрашивать у самих поисковиков. Например:
mirror.png
mirror.png (16.95 КБ) 24429 просмотров
mirror.png
mirror.png (16.95 КБ) 24429 просмотров
- видим, что для моего сайта основным является адрес с www.. У вас может быть иначе.
Если показатели смешанные (выдаются результаты как с www, так и без), то выбирайте тот вариант, в котором проиндексированных ссылок больше. Если сайт совсем новый, то вам предстоит выбрать основной адрес самостоятельно, руководствуясь собственными личными предпочтениями. В идеале нужно произвести склейку зеркал (сделать серверный редирект с не основного варианта на основной), чтобы все страницы сайта были доступны по одному единственному выбранному вами образцу, это позволит избежать дублирования контента, которое не приветствуется поисковиками.

Подробнее о зеркалах сайта можно прочитать в справке Яндекса: http://help.yandex.ru/webmaster/yandex- ... irrors.xml

4) И последнее: завершив создание robots, обязательно проверьте его на правильность и узнайте, какие страницы вашего форума будут индексироваться при обходе роботом, а какие - нет. Сделать это можно в специальном сервисе Яндекса - http://webmaster.yandex.ru/robots.xml
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
userAx
Сообщения: 7
Зарегистрирован: 20.03.14 13:31

robots.txt для форума phpbb

Сообщение userAx »

Более чем исчерпывающая инструкция!
Спасибо, Shredder!
Поставлю Ваш мод sitemap и потом проведу манипуляции с robots.txt
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Добрый день!
Скажите пожалуйста, в robots.txt, не нужно закрывать ссылки на скачивание?
Disallow: /download/file.php?
У меня вылезли шесть ошибок связанных именно с внутренними ссылками на скачивание "Формат документа не поддерживается".
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

Ссылки на вложения закрывать не нужно.
Thinker писал(а):"Формат документа не поддерживается"
Это не страшно.
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Shredder писал(а):Это не страшно.
Shredder, спасибо успокоили.
При попытке перейти по этим ссылкам (даже под Админом), форум выдает "Вы не авторизованы для просмотра, скачивания файлов и перехода по ссылкам этого сайта."
А почему тогда Яндекс ругается, как можно это побороть?
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

Отключить "безопасные загрузки" в настройках вложений...
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Shredder, спасибо огромное.
Все сделал, теперь буду наблюдать.
Привожу свой robots.txt, в соответствии с вашими рекомендациями, возникли некоторые вопросы.
Если вас не затруднит, разъясните, что именно мы закрываем от ботов, следующими строками?
Disallow: /*&st=*
Disallow: /*&sk=*
Disallow: /*&sd=*
Disallow: /*&hilit=*
Disallow: /*&view=*
Disallow: /viewtopic.php*p=*
Disallow: /viewtopic.php?t=*
Disallow: /view*&start=0$

И что означают эти параметры?
Clean-param: sid /index.php
Clean-param: sid /viewforum.php
Clean-param: sid /viewtopic.php
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

Thinker
Первые пять строк из вашего примера закрывают различные параметры, такие как параметры сортировки сообщений в темах, подсветку при поиске, а также различные вспомогательные ссылки - "предыдущая страница", "следующая страница", "просмотр печатной версии" и т.п.
/viewtopic.php*p=* закрывает ссылки на отдельные сообщения.
Disallow: /viewtopic.php?t=* закрывает ссылки на отдельные темы без параметра форума &f=.
/view*&start=0$ закрывает дубль-ссылку на первую страницу форумов и тем.

Насчёт Clean-param есть пояснения в справках по robotst.txt, ссылка на мануал Яндекса дана в первом сообщении.
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Все понятно, спасибо.
У меня в роботе прописана еще одна строка, у вас её нет.
Disallow: /go.php
Нужна она или нет?
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

Эта строка нужна только в том случае, если вы используете редирект. Т.е. когда все внешние ссылки с вашего форума имеют вид адрес_форума/go.php?внешняя_ссылка
Если у вас так, значит эта строка нужна.
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Сам удивился, но у меня именно так.
http://tc-club.ru/go.php?http://tcorolla-club.ru/texnicheskaya-d ... -dvm-1733/
userAx
Сообщения: 7
Зарегистрирован: 20.03.14 13:31

robots.txt для форума phpbb

Сообщение userAx »

Shredder писал(а):Отключить "безопасные загрузки" в настройках вложений...
Отключил - ругается всё равно :?
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

userAx
К robots.txt это не имеет никакого отношения.
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Thinker
Сообщения: 21
Зарегистрирован: 10.04.14 14:21
Откуда: Казахстан
Благодарил (а): 1 раз
Контактная информация:

robots.txt для форума phpbb

Сообщение Thinker »

Даже не знаю в какой теме это спросить, если что перенесите пожалуйста в нужное место.
Установил МОД Sitemap, настроил robots.txt, появилась интересная ошибка в Google вебмастере.
Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt.
Т.е. происходит элементарный конфликт, между описанным в карте сайта и запретами в robots.txt.
Это критично или можно наплевать?
Если это влияет на индексирование сайта, каким образом можно исключить из карты сайта не форумы, как это позволяет МОД, а отдельные темы и страницы?
Shredder
Администратор
Сообщения: 1073
Зарегистрирован: 22.08.13 09:05
Благодарил (а): 133 раза
Поблагодарили: 264 раза
Контактная информация:

robots.txt для форума phpbb

Сообщение Shredder »

Thinker
Там есть более подробная информация? Если да, посмотрите список URL карты, доступ к которым заблокирован в robots.txt, и выложите сюда скриншот.
Мои моды и расширения для phpBB
Выполняю работы по phpBB3 на заказ. Пишите в личку или на почту.
Бесплатная поддержка - только в темах.
Ответить