С помощью файла robots.txt текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. 

Что бы использовать эту настройку, в текстовом редакторе создайте файл с именем robots.txt и заполните его в соответствии с представленными ниже правилами. Далее поместите файл в корень вашего сайта и проверьте правильность настройки с помощью сервиса Яндекс.Вебмастер.

Загрузка вашего сайта начинается с загрузки файла robots.txt. Если даный файл отсутствует, робот любой поисковой системы считает, что доступ к документам не ограничен.

Директива User-agent

В файле robots.txt робот проверяет наличие записей, начинающихся с User-agent. 

User-agent: Yandex # будет использована всеми роботами Яндекса
User-agent: Google # будет использована всеми роботами Google 

Директивы Disallow и Allow

Чтобы запретить доступ робота к сайту или некоторым его разделам, используйте директиву Disallow. Чтобы разрешить доступ робота к сайту или некоторым его разделам, используйте директиву Allow

# Исходный robots.txt:
User-agent: Yandex
Allow: /joomla
Disallow: /

Так, выше описан запрет на индексацию всего сайта, кроме папки /joomla

Использование спецсимволов * и $

При указании путей директив Allow и Disallow допускается использование спецсимволов * и $, задавая определенные регулярные выражения. Спецсимвол * означает любую (в том числе пустую) последовательность символов. По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Чтобы отменить * на конце правила, можно использовать спецсимвол $.

User-agent: Yandex
Disallow: /joomla* # блокирует доступ к страницам 
                   # начинающимся с '/joomla'
Disallow: /cgi-bin # то же самое
Disallow: /old-joomla$ # запрещает '/old-joomla', 
                    # но не запрещает '/old-joomla.html'

Директива sitemap

Для описание структуры сайта можно использовать файл sitemap.xml, Что бы поисковая система его использовала, укажите путь к файлу в качестве параметра директивы Sitemap. Лучше всего расположить файл в корне вашего сайта.

User-agent: Yandex
Allow: /
Sitemap: http://mysite.com/sitemap.xml

Директива Host

Если у вашего сайта есть зеркала, специальный робот определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его для всех зеркал в файле robots.txt имя главного зеркала должно быть значением директивы Host. Например, если вы хотите что бы главным зеркалом было имя сайта без www, укажите, так в директиве Host

User-Agent: *
Disallow: /forum
Host: glavnoye-zerkalo.ru

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы на загрузку, можно воспользоваться директивой Crawl-delay, которая позволит задать поисковому роботу минимальный период времени в секундах между окончанием загрузки одной страницы и началом загрузки следующей.

User-agent: *
Disallow: /old-joomla
Crawl-delay: 5.7 # задает таймаут в 5.7 секунды

Пример файла robots.txt для Joomla 3

User-agent: Yandex
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
Sitemap: http://8ke.ru/sitemap.xml
Host: 8ke.ru

Это не полный Файл. У меня он другой. Главное следить за индексацией вашего сайта, и при необходимости корректировать данный файл.

Если вам понравился материал, поделитесь им в социальных сетях. Спасибо!