Meta-тег robots — чем он отличается от robots.txt и как с ним работать?
По результатам некоторых исследований, мета-тег robots используют менее 20 % вебмастеров. Отчасти это объясняется объективным отсутствием необходимости в использовании этого мета-тега. Большинству сайтов в самом деле достаточно грамотно настроенного файла robots.txt.
А разве это не одно и то же? – возможно, спросит новичок в SEO. Нет, это разные вещи, – ответим мы. Рассказываем.
Чем похожи и чем отличаются файл и мета-тег robots?
Сходство, по сути, одно – и файл, и мета-тег содержат указания для поисковых роботов, запрещающие или разрешающие индексацию какой-то части контента на сайте. Потому и названия совпадают. Но есть и принципиальные отличия.
☑ Robots.txt – это один единственный файл на весь сайт, директивы которого поисковым роботам касаются всего опубликованного на сайте контента. Для создания файла robots.txt не нужно редактировать HTML-код страниц. Достаточно просто в столбик прописать перечень директив и загрузить файл в административную панель. А иногда и просто проверить автоматически сгенерированный CMS-системой файл и при необходимости его отредактировать в заботливо созданном разработчиками окне.
И да! Грамотно настроить robots.txt для вашего сайта нужно обязательно.
☑ Мета-тег robots прописывают для отдельных страниц сайта прямо в HTML-коде. Делают это не всегда, а только если не получается решить все задачи посредством robots.txt.
Например, мета-тег robots может:
- закрыть от индексации ссылки на странице, не закрыв саму страницу;
- закрыть от индексации весь контент страницы, разрешив, тем не менее, краулерам переходы по имеющимся на странице ссылкам;
- закрыть от индексации только изображения на странице;
- влиять на формирование сниппета.
При помощи файла robots.txt делать все это невозможно. Но мета-тег robots используется не только для таких целей.
С его помощью можно также закрыть:
- дубли страницы;
- технические страницы;
- страницы в стадии разработки или редактирования и т. п.
Причем в некоторых случаях это стоит делать именно мета-тегом!
О том, как работать с файлом robots.txt, мы подробно рассказали в другой нашей статье. А эту
посвятим мета-тегу robots.
Что представляет собой мета-тег robots?
Это мета-тег группы name контейнера head, который в компании с прочими мета-тегами (title, description, content-type) сообщает поисковым роботам информацию, важную для продвижения страницы сайта в выдаче.
По умолчанию он выглядит вот так:
<head>
<meta name="robots" content="value"/>
</head>
Как и файл robots.txt, мета-тег robots может обращаться ко всем поисковикам сразу или только к одному конкретному. Это указывается в элементе name.
<meta name="robots"…
<meta name="yandexbot"…
<meta name="googlebot"…
Если одну и ту же страницу нужно показывать по-разному разным роботам, то нужно прописать не один мета-тег для всех, а для каждого свой.
В элементе content чаще всего используются следующие 4 основные директивы, понятные всем поисковым ботам:
- index – индексация разрешена;
- noindex – индексация запрещена;
- follow – переход по ссылкам разрешен;
- nofollow – переход по ссылкам запрещен.
Но есть и другие:
- all – поисковым ботам разрешены любые действия;
- none – поисковым ботам запрещены любые действия;
- noarchive – запрещена индексация архивной версии веб-страницы.
Основные директивы могут использоваться в парах:
Index, follow – разрешены одновременно и индексация, и переход по ссылкам
Такая команда может быть заменена короткой директивой all. Но проще в этом случае просто не
использовать мета-тег robots вовсе.
noindex, nofollow – запрещены одновременно и индексация, и переход по ссылкам
Эту комбинацию можно заменить короткой директивой none. Теоретически это также равно
директиве disallow файла robots.txt, но на практике такая альтернатива не всегда работает. О
причинах скажем ниже.
index, nofollow – разрешена индексация, но запрещен переход по ссылкам
Для чего может потребоваться запретить переход по ссылкам на странице, разрешенной к индексации?
- Обычно так делают для предотвращения передачи ссылочного веса – например, если ссылка, которая по смыслу нужна в тексте, ведет на второстепенную страницу сайта.
- Также есть смысл запрещать переход по платным ссылкам, ведущим на сайты с низкими SEO-показателями.
- Закрывают тегом nofollow ссылки в комментариях к опубликованным на сайте материалам, если качество таких ссылок под вопросом. Кстати, некоторые CMS сейчас делают это автоматически – это стоит учитывать, если в комментариях появляются ссылки, в доступности которых краулерам которых вы заинтересованы!
noindex, follow – запрещена индексация, но разрешен переход по ссылкам
Такая комбинация применяется, например, для страниц пагинации – индексировать их роботам запрещают, но переход по ссылкам на карточки товаров с них разрешен.
Полная запись мета-тега будет выглядеть, например, вот так:
<head>
<meta name="robots" content=" noindex, follow "/>
</head>
Гуглом поддерживается еще ряд «экзотических» атрибутов для управления сниппетом, которые на практике применяются крайне редко. Причина проста: нечасто случается необходимость ограничить вывод какого бы то ни было контента в сниппет. Обычно вебмастера стараются сделать сниппет максимально подробным и объемным.
Тем не менее вот эти атрибуты:
- nosnippet – запрещает часть текста или видео в сниппете;
- max-snippet – задает максимальный размер сниппета в символах;
- max-image-preview – ограничивает размер изображений в поисковой выдаче;
- max-video-preview – ограничивает длительность видео в сниппете;
- notranslate – запрещает перевод страницы в выдаче Гугла.
И еще две исключительно гугловские директивы мета-тега robots.
unavailable_after – запрещает выводить страницу сайта в выдаче после определенной даты.
Теоретически может пригодиться для страниц временно действующих акций.
noimageindex – запрещает индексировать изображения на веб-странице.
Может приглянуться любителям публиковать на своем сайте неуникальные картинки. Но соблазн использовать эту команду для их скрытия лучше преодолеть и все-таки найти способ сделать весь контент на сайте авторским, потому что «дыры» на веб-странице поисковым роботам тоже не понравятся.
Когда noindex, nofollow в мета-теге robots предпочтительнее disallow файла robots.txt
Уже проиндексированные страницы, у которых зафиксирована посещаемость и прочие поведенческие показатели, Google будет упорно индексировать, игнорируя файл robots.txt. А вот мета-тегу подчинится и страницу из индекса удалит.
Страницы с информацией о готовящихся новинках тоже надежнее закрывать мета-тегом, так как файл robots.txt – это открытая информация. Мало ли что…
Sitemap, robots.txt, метатег robots – все должно быть логично и аккуратно
Приоритетом № 1 для поисковиков является мета-тег. То есть если сканирование веб-страницы разрешено файлами robots.txt и sitemap.xml, но запрещено мета-тегом, то страница в индекс не попадет изначально или будет из него исключена после очередного визита краулера на сайт.
Но не стоит думать, что достаточно прописать мета-тег, а о robots.txt и sitemap.xml в таком случае можно не думать. Команды поисковым роботам не должны быть противоречивыми.
Если страница закрыта от индексации мета-тегом, то ее нужно убрать из карты сайта.
Еще один нюанс: если страница закрыта от индексации директивой disallow файла robots.txt, то атрибуты мета-тега поисковый робот может уже не увидеть. Поэтому, обращаясь к краулерам при помощи мета-тега, не закрывайте ее от них через disallow.
Несколько примеров использования мета-тега robots из практики
Пример 1
При работе с региональными российскими поддоменами можно закрывать их от ботов Гугла, так как он знает только регион «Россия» – в отличие от Яндекса, который хорошо понимает российскую региональность. В этом случае пишем в контейнере head такую конструкцию:
<meta name=»googlebot» content=»noindex, nofollow»>
Пример 2
Для запрета добавления материала в новости Гугла есть конструкция:
<meta name=»googlebot-news» content=»noindex»>
Она тоже используется редко. Но может быть полезна для серых ниш и т. п.
Пример 3
Некоторые CMS могут прописывать мета-теги robots автоматически, без участия разработчика. Например, в коде страниц, созданных на «Вордпрессе», могут обнаружиться такие конструкции:
<meta name="robots" content="max-snippet:-1"> (нет ограничений количества символов в сниппете)
<meta name="robots" content="max-image-preview:large"> (нет ограничений размера изображения в сниппете)
<meta name="robots" content="max-video-preview:-1"> (нет ограничений размера изображения в сниппете)
Если вы их видите в коде своего сайта, просто не трогайте их. Пользы от них немного, но и вреда никакого.
Не путать с мета-тегом robots! Теги noindex и nofollow в контейнере body
Как было сказано выше, место мета-тега robots – в контейнере head, где он задает правила для всей страницы в целом.
А если нужно закрыть от индексации только определенный текстовый блок или конкретную ссылку, то используем теги noindex и nofollow в контейнере body.
Пример 1
Закрываем от индексации часть текста
В этом случае скрываемая от индексации часть текста должна быть заключена в теги с двух сторон (как в скобки).
<noindex> текст, который надо закрыть от индексации </noindex>
Этим приемом рекомендуется пользоваться для того, чтобы скрыть от поисковых ботов:
- цитаты из художественных произведений, законов, публикаций в СМИ;
- повторяющиеся на нескольких/многих страницах собственного сайта текстовые блоки – например, технические характеристики товаров, которые невозможно объединить в одну карточку;
- просто текст, которому не стоит попадать в выдачу – например, реквизиты региональных, а не головных офисов.
Пример 2
Закрываем от индексации часть кода
Если нужно скрыть от поисковиков часть кода страницы (счетчик метрики, пиксель), действуем аналогично – в контейнер body помещаем этот блок кода и окружаем его с двух сторон тегом.
<noindex> код, который надо закрыть от индексации </noindex>
Пример 3
Закрываем от индексации ссылку
В этом случае, если нужно обратиться к Гуглу, то формула другая:
<a href=”URL”ref=”nofollow”>ссылка, которую надо скрыть</a>
А если Яндекс тоже важен, то добавляем с обеих сторон атрибут , как в примерах выше.
<noindex><a href=”URL”ref=”nofollow”>ссылка, которую надо скрыть</a></noindex>
Да, приходится слегка повозиться. Но немного практики – и все освоите.
А как же X-Robots-Tag? Почему о нем до сих пор ни слова?
Что ж, скажем пару слов. Мы не используем его в своей работе, потому что реальная необходимость в нем возникает еще реже, чем в мета-теге robots. А задачи с его помощью решаются практически те же.
К тому же, если для работы с мета-тегами в большинстве популярных CMS есть функционал в базовой версии или простые в использовании плагины, то X-Robots-Tag надо еще умудриться настроить.
Словом, сами не пользуемся и вам не рекомендуем тратить на это время и силы.
Зато можем предложить не тратить их вовсе, а просто обратиться к нам с запросом на
- SEO-аудит;
- техническую оптимизацию сайта;
- SEO-оптимизацию контента;
- или полный комплекс работ по продвижению вашего сайта в выдаче поисковых систем.
Звоните, пишите или оставляйте заявку на сайте.
Определим наиболее подходящую стратегию для поискового продвижения