Как правильно настроить robots.txt на примере CMS WordPress.
Что такое robots.txt и зачем он нужен?
Перед каждым начинающим веб-мастером, со временем встает вопрос относительно того, что такое robots.txt, какая его основная задача, а также как его правильно создать и настроить. Следует сразу же отметить тот факт, что данный файл является одним из самых важных инструментов поисковой оптимизации. Такая позиция аргументируется тем, что основная задача этого файла полагает в том, что осуществить запрет или разрешение на индексирование поисковой машиной выбранных странник, меток, рубрик, архивов, административной части сайта и иных составляющих содержания интернет страницы.
Почему нужно настраивать robots.txt, чтоб он запрещал индексировать сайт?
Файл robots.txt является некоим регулировщиком для поисковых машин, указывающий на то, что можно индексировать и показывать в поисковых выдачах, а что в некоим случае и не при каких обстоятельствах нельзя. У большинства людей, которые узнали про функцию данного инструмента поисковой оптимизации, практически, сразу же в голове возникает мысль, - «Стоп!!! А, зачем что-то запрещать поисковой машине индексировать? По логике, чем больше она проиндексирует все страницы, рубрики и метки, архивы - тем больше будет виден сайт в интернете для пользователя?
Ответ таится непосредственно в работе поисковой машине и её роботов. Когда поисковая машина видит в интернете новый интернет ресурс, то она отправляет к нему роботов, задача, которых заключается в том, что разведать, что находится на ресурсе, какое его содержание и в какую категорию его необходимо отнести. После этого, когда поисковый робот начинает разведывать интернет ресурс, в первую очередь он ищет именно файл robots.txt и его настройки.
Изучив файл, он руководствуется прописанными в нем правилами, относительно того, что следует индексировать, а что нет. В противном случае, если robots.txt не найдено или же в файле нет настроек, то поисковый робот и сама поисковая машина индексирует весь сайт целиком, всё что нужно и не нужно. Именно такая массовая индексация всех страниц интернет ресурса и негативно влияет на продвижение сайта. Так, как ненужный «чёрнорабочие» архивы, рубрики и административные страницы мешают продвигать сайт по нужным запросам.
К примеру, веб-мастер основал блог про рыбалку. Для того чтоб на блог заходило множество рыболовов, чтоб прочитать что-то интересное или посмотреть фильм про рыбалку онлайн, а также поделится своим опытом, этот блог необходимо продвинуть в поисковых машинах по таким запросам, как: весенняя рыбалка, рыбалка онлайн, рыбалка на карася. Следовательно, страницы блога, где находятся статьи соответствующие вышеуказанным запросам необходимо выдвинуть на передний план по сравнению с техническими страницами. Так, как именно их ищет рыболовная публика интернет пользователей и именно статьи должны показываться по поисковому запросу. Это означает, что именно такие страницы должны быть проиндексированы.
Если же вместе с такими нужными страницами, поисковая машина проиндексирует ещё уйма технических страниц, как архивы 21.02.2014, или рубрика август 2013, то нужные страницы, нужные статьи по интересным запросам попросту потеряются в массе проиндексированного мусора. А, это влечет за собой низкий уровень релевантности страниц сайта и его в целом по сравнению с аналогичными интернет проектами.
Как создать и правильно настроить файл robots.txt?
Для того, что создать robots.txt и он в дальнейшем без проблем работал, необходимо скачать программу блокнот под названием Notepad++. Конечно, подойдет и обычный блокнот, который встроен в операционную систему Windows. Однако, как показывает практика, в связи с тем с особенностью кодировки стандартного блокнота, после сохранения файла он, может добавить какие-либо скрытые и невидимые символы и даже строки. А, это пагубно влияет на работоспособность robots.txt на хостинг сервере.
После того, как блокнот установлен, его нужно открыть. Перед глазами появиться открытый блокнот и новый документ, он ещё без названия и сохранять его сразу не нужно, это сделается по завершению работы. И теперь начинается непосредственно создание robots.txt, для того, чтоб его настроить и прописать необходимые строки, нужно запомнить такие обозначениями, как:
User-agent: * - правила robots.txt применяются ко всем поисковым машинам;
Disallow: - запрет поисковику индексировать директорию, которая прописана после «:»;
Allow: - разрешает поисковику индексировать директорию, которая прописана после «:»;
Host: - указывает поисковой машине основное зеркало интернет ресурс (www.site.ru или site.ru)
Sitemap: - указывает поисковой машине, где находится фай карта сайта Site.xml.
Кроме того, помимо вышеуказанных команд, необходимо, также ознакомится с директивами и элементами сайта, которые не должны индексироваться поисковой машиной. Так, как их индексация мешает продвижению полезных страниц с тематическими статьями и полезным контентом. Следует обратить внимание, что нижеуказанные обозначения директив отличаются в той или иной мере в зависимости от CMS, а также языка, на котором написан сайт. В данном случае, рассмотрим пример, как правильно настроить файл robots.txt для СMS WordPress.
Обозначение директив, которые не нужно индексировать поисковым машинам:
1. /wp-login.php – директива входа в административную панель;
2. /wp-register.php – директива регистрации нового пользователя;
3. /webstat/ – статистика сайта;
4. /feed/ – выдаваемый список рекламодателей по какому либо запросу;
5 /trackback – ссылки на сайты, который ссылаются на определенную статью;
6. /wp-content/plugins – плагины сайта;
7. /wp-content/themes – файлы внешнего вида сайта «Темы»;
8. /wp-admin/ – административная панель;
9. /wp-includes/ – составляющие и дополнения сайта;
10. /comments – комментарии;
10. /category/*/* – категории.
Кроме того, к вышеуказанным путям, следует добавить в чёрный список, также и: */trackback, */feed, */comments, /*?*, /*?, /category/*/*. Исходя из вышеуказанных обозначения, можно смело создавать свой собственный robots.txt, который имеет примерный вид:
User-agent: *
Disallow: /wp-login.php
Disallow: иные директории, которые запрещаются для индексации (каждая прописываться с новой строки и перед каждой ставиться команда Disallow:);
Allow: /contact.php (второстепенные страницы или отдельные рубрики сайта, а также архивы, которые возможно нужны для оптимизации сайта);
Host: - www.site.ru (ссылка на главное зеркало сайта);
Sitemap: - www.site.ru.sitemap.xml (ссылка на карту сайта, к которой поисковой робот обращается за информацией о новых публикациях).
После того, как файл настроен и все команды прописаны, файл нужно сохранить. Для этого необходимо нажать в верхнем левом углу «Файл», потом «Сохранить как». В диалоговое окно спросит как назвать файл, прописываем «robots», в сочетании с форматом файла .txt, выйдет robots.txt. Этот файл сохраняем в любую удобную папку на компьютере, а потом копируем в корень сайта, а именно там где находятся все системные файлы и сам движок. Таким образом, создается и настраивается robots.txt.