Файл robots.txt, расположенный в корневой папке Вашего сайта, необходим для управления индексацией. С помощью файла robots.txt вы можете запретить к индексации как весь сайт, так и отдельные его категории и страницы.

Конечно, запрещать к индексации весь сайт не нужно, Вы же хотите получать посетителей с поисковых систем ad , однако в некоторых случаях файл robots.txt очень помогает.

Например, в некоторых CMS, к примеру DLE, есть текстовая версия сайта, которая необходима для печати материалов с сайта. Так вот, эти странички, с текстовой версии, спокойно попадают в индекс поисковых систем, а контент же на них точно такой же как и на основной странице - то есть получается 2 одинаковые странички, что не есть хорошо.
В основном, конечно, страницы текстовой версии попадают в дополнительный индекс, но иногда случается и такое, что основная страница лезет в дополнительный индекс, а текстовая в основной - вот поэтому и нужно запрещать к индексации некоторые участки своего сайта.

Есть ещё масса других примеров, доказывающих для чего необходимо закрывать к индексации некоторые разделы и страницы сайта.
Например, когда сайт поддерживает регистрацию пользователей, там есть и личная страничка пользователя, а зачем она в индексе? Правильно, не зачем, значит тоже запрещаем к индексации, тем более что иногда пользователи - спамеры, вставляющие в профиль кучу ссылок.

Теперь давайте отойдём от примеров, и перейдём непосредственно к практике. ad
Чтобы создать файл robots.txt для своего сайта, необходимо открыть блокнот и вписать туда:

User-agent: *

Символ "*" указывает на то, что ваш файл robots.txt составлен для всех поисковых роботов. Если же, к примеру, написать User-agent: Googlebot или User-agent: Yandex, то robots.txt будет составлен для одного поискового робота Google или Яндекс соответственно. Однако User-agent в файле robots.txt может повторяться сколько угодно раз, т.е. для каждой поисковой системы Вы можете задать различные параметры индексирования.

Я советую использовать только символ User-agent: *, т.е. список правил для всех поисковых систем, но не исключено что Вам придется писать различные правила индексации для некоторых из них.

Теперь научимся запрещать к индексации определённые категории и странички сайта.
Итак, после User-agent: * пишем:

Disallow: /content/

Это значит, что к индексации запрещена категория content вашего сайта. Если написать:

Disallow: /content.html

Это будет значить, что к индексации запрещена страничка content.html
Вот ещё несколько примеров:
Disallow: - разрешение индексировать всё содержимое сайта.
Disallow: / - запрет на индексацию всего сайта.
Disallow: /content – запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии name.
Disallow: /*.png$ - запрет на индексацию всех файлов, имеющих расширение .png.
Disallow: /content.php?action=print – запрет индексации переменной, например, страниц для печати.

Бывает такое, что весь сайт запрещен к индексации, и нужно разрешить поисковым системам индексировать лишь определенные категории и страницы сайта. Для этого используется директива Allow. Например:

Allow: /content/

Это значит, что разрешено индексирование категории content, Вашего сайта.
Существуют также и другие директивы, одна из их Sitemap, с помощью которой указывается путь к файлу sitemap.xml Вашего сайта, если таких файлов несколько, необходимо указать все. Например:

Sitemap: http://site.ru/site/sitemaps.xml
Sitemap: http://site.ru/site/sitemaps2.xml

sitemap.xml - это XML-файл с информацией для поисковых систем о страницах веб-сайта, которые подлежат индексации.

Существуют также и другие директивы, применяемые в файле robots.txt, о которых Вы можете узнать от самих поисковых систем, например Яндекс.