Посредством мета-заголовков мы можем помогать поисковым роботам с корректной индексацией сайта. Одним из значимых на мой взгляд тегов для поисковых систем является robots. Назначение данного тега в том, что он в зависимости от присвоенного значения может сообщать поисковым роботам, такую к примеру информацию: нужно ли индексировать данную страницу, либо в этом нет необходимости. На самом деле список значений достаточно велик. Так же запрет может так же выполняться посредством файла robots.txt. Это может быть полезно, к примеру, в случаях с файлами, когда необходимо запретить индексацию. В самих файл таким образом сообщить поисковой системе об этом мы естественно не можем.
Файл robots.txt в этом случае располагается в корне сайта. В самом документе мета тег помещается в самом заголовке документа, между тегами head. Говоря простым языков, поисковый робот читает файл robots.txt, если в нём нет информации об индексации целевой страницы (к примеру запрет), он переходит на саму страницу, после чего пытается считать заголовок robots. И в зависимости от значения может принимать дальнейшие решения по индексации.
<meta name="robots" content="значение">
В атрибут content помещается значение параметра robots. Вариантов значений этого параметра целое множество. Давайте рассмотрим варианты значений, посредством которых мы сообщаем поисковому роботу:
Давайте теперь рассмотрим примеры использования тега robots. Первым простым примером будет запрет на индексацию страницы:
<meta name="robots" content="noindex">
В этом случае, если в качестве значения name стоит robots, то правило будет актуально для всех поисковых роботов. Однако возможна ситуация, когда следует указать отдельное правило, для отдельных поисковых роботов.
Давайте попробуем поисковому роботу yandex сообщить, что индексировать страницу не нужно, как и ссылки на странице.
<meta name="yandex" content="noindex, nofollow">
В качестве значения атрибута content мы передали два параметра noindex, nofollow. Это обозначает, что вы можете сообщать несколько значений разделяя их запятой.
По аналогии с предыдущем примером, можно указать отдельное правило для поисковых роботов google. Для разнообразия, давайте сделаем запрет для индексации изображений в базу данных google.
<meta name="robots" content="noimageindex">
В этом случае разрешения на индексацию изображений будут иметь все поисковые роботы кроме google.
Как мы знаем, после того как страница была проиндексирована и попала в поисковую выдачу, то по умолчанию её копия так же может храниться в кэше. Висеть «снимок страницы» в кэше может значительное время, даже после кардинального её изменения. Мы можем запретить поисковым роботам показывать страницы из кэша.
<meta name="robots" content="noarchive">
В этом случае запрет на сохранение копии будет действовать для всех поисковых машин. Как вы уже знаете из примеров выше, можно выполнить запрет для отдельных поисковых систем.
Сниппетом называют текст, который служит описанием для страницы в результатах поисковой выдачи. Как правило он размещается непосредственно под заголовком. В некоторых случаях может потребоваться убрать данное описание. Делается это аналогичным образом:
<meta name="robots" content="nosnippet">
Подобным образом запреты применяются для всей страницы. Существуют и другие методы, позволяющие регулировать индексацию страницы.
Можно сделать запрет на индексации для отдельных элементов на странице. Это может быть какая-либо информация которая не должна участвовать в поиске.
В случае с яндексом, то можно использовать специальную разметку «noindex»:
<!--noindex--> здесь контент который не нужно индексировать яндексу <!--/noindex-->
Что касается поисковой системы google, то там к примеру, можно задать похожие параметры посредством атрибута rel.
<a href="/personal.html" rel="nofollow">Профиль</a>
Тег meta может так же приминать и другие значения параметров, которые так же способны сообщать поисковым роботам служебную информацию. Вероятно, в будущем будет об этом, и здесь появится ссылка на страницу.