Файл robots.txt — как его создать и загрузить или найти и настроить
Эта статья будет интересна:
☑ тем, кто делает первые шаги в SEO, намереваясь в обозримом будущем стать профессионалом в данной сфере и оказывать соответствующие услуги;
☑ владельцам недавно созданных сайтов, желающим самостоятельно управлять своими информационными веб-ресурсами;
☑ и собственникам бизнесов, желающим освоить азы SEO, чтобы чувствовать себя увереннее при подборе SEO-специалистов.
Стандартный путь новичка в SEO выглядит примерно так:
- Читает статьи по теме, в частности о технической оптимизации
- Много раз встречает информацию о необходимости правильной настройки robots.txt
- Сначала надеется, что, может быть, как-нибудь обойдется без этого
- Потом понимает, что нет, не обойдется
- С тяжким вздохом идет искать информацию о том, как настроить этот коварный robots.txt
- И оказывается в безнадежном недоумении, обнаружив, что толковой информации о нем днем с огнем не сыщешь. Все как-то очень обрывочно, размыто, сложно, неактуально для конкретного пользователя или еще что-нибудь не так.
Мы постараемся устранить этот пробел, написав материал, который ответит на SEO-новичковые вопросы максимального количества пользователей по возможности просто, подробно и конкретно.
Да! Если на момент чтения этой статьи вы еще не знаете, для чего вообще нужен этот файл, то рекомендуем вам ознакомиться с нашими материалами:
А в этой публикации речь пойдет исключительно о работе с названным файлом.
Как найти и открыть для редактирования файл robots.txt
В наше время (мы пишем эту статью в мае 2024 года) огромное количество несложных сайтов для малого и среднего бизнеса создаются на конструкторах. Их разработчики, заботясь о комфорте своих клиентов, стараются облегчить им не только процесс создания сайта, но и работу по его технической оптимизации. Есть уже конструкторы, в которых стартовая версия файла robots.txt создается автоматически при создании собственно сайта и предлагается пользователю для редактирования – например, вот так это выглядит в конструкторе https://www.a5.ru/:
То есть в данном случае создавать и загружать файл не нужно. Только отредактировать. Мастер-страница здесь – это страница, на которой создается с нуля или редактируется готовый шаблон дизайна сквозных (присутствующих на всех страницах) элементов сайта – шапки, футера и т. п. На ней же редактируется и файл robots.txt – ведь он тоже имеет отношение к сайту в целом.
Как видите, логика простая и понятная. Так что, возможно, и в админке вашего сайта тоже есть подобная опция. Самый простой способ проверить это (если не нашли самостоятельно) – связаться с техподдержкой конструктора сайта или теми, кто ваш сайт для вас создавал, и спросить, как редактировать robots.txt.
Если такой опции нет (например, в Bitrix и ряде других CMS он по умолчанию отсутствует), то придется создать его и загрузить в корневой каталог полностью вручную или при помощи специального плагина.
Оба варианта несложные, надо просто знать, как это делается. Сейчас мы вам расскажем. Но прежде ответим на один часто задаваемый нам вопрос.
Как отредактировать robots.txt на Tilda?
Никак. К сожалению. Это один из существенных минусов Тильды. Возможность редактирования или замены автоматически создаваемого файла robots.txt на ней не предусмотрена.
А для тех, кому повезло больше, продолжаем.
Где найти корневой каталог сайта для загрузки в него файла robots.txt?
В WordPress
Корневой каталог (он же корень сайта, он же корневая папка) ищем в административной панели своего хостинга. Выглядит он как обычная папка с файлами и чаще всего называется public_html. Может называться www, httpdocs, docs. Или его название может совпадать с названием вашего домена.
Главное, при любом названии папки внутри нее должны обнаружиться три вложенные папки:
- wp-admin
- wp-content
- wp-includes
Еще один маркер того, что вы нашли нужную папку – присутствие в ней файла index.php. Если внутри папки видите все перечисленное – смело загружайте в нее свой файл.
Вот как это может выглядеть:
Еще один пример:
В Bitrix
Стандартный путь выглядит следующим образом.
1⃣ Авторизуемся в административной панели.
2⃣ Жмем на вкладку «Контент» и в раскрывшемся списке выбираем раздел «Файлы и папки»
3⃣ Ищем файл robots.txt. Он должен быть создан самой CMS. Если нашли, то кликаем по строке правой кнопкой мыши и в открывшемся меню выбираем «Редактировать как текст».
4⃣ В открывшемся окне редактирования вносим нужные коррективы. После завершения этой работы нажимаем сначала кнопку «Применить», а потом – «Сохранить».
Если по какой-то причине файл robots.txt в админке отсутствует, то создаем его и загружаем при помощи этой кнопки:
Как видите, в этой части все действительно не сложно. А если все-таки затруднения возникают, с ними быстро поможет справиться техподдержка. Поэтому не будем утомлять вас подробностями способов обнаружения файла robots.txt в админках всех существующих CMS, а перейдем к следующему вопросу.
Важно!
Любые внесенные изменения крайне желательно проверить дважды:
- перед сохранением в окне редактирования
- после сохранения в браузере
Ведь любая ошибка в этом файле может стоить здоровой жизни вашему сайту!
Как найти файл robots.txt любого сайта в браузере?
Проще простого.
- К адресу главной страницы после знака «/» добавляете robots.txt
- Жмете Enter
- Наблюдаете искомый файл в открывшемся окне
Для редактирования он доступен не будет, а для изучения и проверки – да. Причем так вы можете посмотреть robots.txt не только своего, а вообще любого сайта. Отличная возможность поучиться и что-то перенять у опытных конкурентов и лидеров рынка!
Как создать файл robots.txt для загрузки в корневой каталог
Если создание файла все-таки требуется, то сделать это можно в любом текстовом редакторе. Главное, сохранить его с названием robots (именно с маленькой буквы и именно на латинице!) и с расширением .txt (не .doc и не какой бы то ни было другой формат!).
В Ворде процесс сохранения в нужном формате может выглядеть так:
То есть путь такой: Файл à Сохранить как à Обычный текст
Или такой: Файл à Экспорт à Изменить тип файла à Обычный текст
Технология создания файла robots.txt
Основные директивы файла
☑ User-agent
Называет поисковый робот, правила для которого прописаны в блоке.
Чаще всего создают три блока:
- для любых поисковиков (начинается с директивы User-agent: *)
- для Яндекса (начинается с User-agent: Yandex)
- для Гугла (начинается с User-agent: Googlebot)
И располагают блоки обычно именно в такой последовательности, отделяя друг от друга пустой строкой.
Для Яндекса и Гугла создаются отдельные блоки
- потому что это две основные поисковые системы;
- и потому что в их работе есть некоторые различия, которые стоит учитывать при создании файла robots.txt;
- и потому что есть основания полагать, что эти поисковые системы ценят такое персональное внимание к себе.
☑ Disallow
Запрещает индексацию определенных папок и файлов. Если директива Disallow пустая, это означает, что запретов на индексацию нет. Выглядит это так:
А так от индексации закрывают весь сайт целиком:
☑ Allow
Разрешает индексацию. Обычно применяется для обозначения исключений из правил, заданных директивой Disallow, и, соответственно, прописывается под этой директивой.
Если после двоеточия в строке директивы Allow идет только слэш, то это означает, что разрешена индексация всего сайта:
А пустая директива Allow в теории означает, что запрещена индексация всего сайта. Но на практике поисковые роботы в таком случае могут, наоборот, начать индексировать весь сайт. Так что лучше все-таки использовать Allow именно в классическом варианте – для исключений из правил, заданных Disallow.
☑ Sitemap
Указывает поисковым роботам путь к карте сайта
☑ Clean-param
Запрещает индексацию образующихся на сайте дублей страниц.
Каждую директиву пишем с новой строки с большой буквы. После названия директивы ставим двоеточие и пробел. При запрете и разрешении индексации после пробела добавляем также слэш (/) и указываем не полный адрес страницы, а только то, что следует за названием домена. То есть не так:
А вот так:
Спецсимволы файла
☑ / (слэш)
Ставится после названия директивы перед названием файла или папки и в конце строки, если от индексации закрываем папку (а не файл)
Примеры:
От индексации закрыли файл about.html:
От индексации закрыли папку local:
От индексации закрыли папку aura, но папка promo в ней для индексации открыта:
Карта сайта – это файл (а не папка), поэтому после его названия слэш не стоит:
☑ * (звездочка)
Означает любой набор символов в обозначенном месте адреса страницы.
Примеры:
Директива, располагаемая в начале блока с правилами для любых поисковых систем:
От индексации закрыли страницы директории profile с любыми символами перед /answers в адресе:
От индексации закрыли страницы директории promo с любыми символами до или после goodbye в продолжении адреса:
От индексации закрыли любые страницы сайта, в адресах которых есть search:
От индексации закрыли любые pdf-файлы:
☑ $ (знак доллара)
Означает завершение действия директивы.
Пример:
От индексации закрыли только папку abc, но не страницы с адресами, в которых после /abc/ есть еще символы.
То есть страница https://site.ru/abc/ от индексации закрыта,
а страницы:
https://site.ru/abc/d,https://site.ru/abc/e,
https://site.ru/abc/f,
https://site.ru/abc/123dfgdf
и т.п. – открыты.
☑ # (решетка)
Используется для создания комментариев, предназначенных для людей. Поисковыми роботами не используется все, что написано после решетки в одну строку.
Пример:
Количество строк, начинающихся со знака #, никак не регламентируется, поэтому иногда можно встретить файлы с подобными блоками:
☑ & (амперсант)
Используется в директиве Clean-param, прописываемой для поискового робота Яндекса (для Гугла не работает).
О директиве Clean-param
Ее прописывают для сайтов, на которых автоматически генерируется множество похожих по содержанию страниц. Это, например, маркетплейсы, на которых действуют функции сортировок и поиска. Десятки, сотни, тысячи аналогичных товаров делятся на страницы, адреса которых различаются между собой только номером. Это выглядит, например, вот так:
https://www.wildberries.ru/catalog/0/search.aspx?page=1&sort=popular&search=урбечhttps://www.wildberries.ru/catalog/0/search.aspx?page=2&sort=popular&search=урбеч
https://www.wildberries.ru/catalog/0/search.aspx?page=3&sort=popular&search=урбеч
Все, что в этих адресах находится после знака вопрос – это метки. Они разделяются между собой амперсантами. Название метки пишут сразу после знака вопроса (первая метка, выделена красным) или амперсанта (все последующие метки, выделены голубым), значение метки – после знака «равно».
https://www.wildberries.ru/catalog/0/search.aspx?page=1&sort=popular&search=урбечhttps://www.wildberries.ru/catalog/0/search.aspx?page=2&sort=popular&search=урбеч
https://www.wildberries.ru/catalog/0/search.aspx?page=3&sort=popular&search=урбеч
Директива Clean-param сообщает роботу Яндекса, что эти страницы с этими метками нужно свести к одному единственному адресу:
https://www.wildberries.ru/catalog/0/search.aspx?sort=popular&search=урбечИ тогда Яндекс-бот проиндексирует только первую страницу из множества страниц результатов поиска или сортировки.Для формирования директивы Clean-param делим адрес первой страницы на основную ссылку и параметры:
https://www.wildberries.ru/ + catalog/0/search.aspx?page=1&sort=popular&search=урбечФормируя правило, после Clean-param: вписываем только названия меток через амперсант:
Clean-param: page&sort&search
Директивы, утратившие актуальность
☑ Crawl-delay
☑ Host
Информацию о них вы можете встретить на просторах Интернета и их все еще можно увидеть в некоторых файлах robots.txt, но они уже не поддерживаются Яндексом и Гуглом. Не страшно, если они прописаны в вашем robots.txt, но и пользы от них нет.
В чем разница между файлом robots.txt и мета-тегом robots?
Robots.txt – это файл, который загружается в административную панель сайта и сканируется поисковыми роботами. Он:
- не имеет отношения к HTML-коду страниц;
- существует в единственном числе;
- имеет полный перечень команд поисковым роботам по сканированию страниц сайта.
Метатегиrobots являются частью HTML-кода. Они:
- Прописываются в коде каждой отдельной страницы.
- Существуют во множественном числе – равном количеству страниц сайта.
- Команды каждого метатега robots относятся только к одной странице сайта.
Для чего существуют и robots.txt, и мета-теги robots? Чего-то одного недостаточно?
У них просто разные задачи. Если robots.txt закрывает/открывает от/для индексации целые страницы и директории, то мета-теги robots решают более точечные задачи, например, могут запретить:
- переход по ссылкам, находящимся на странице;
- индексирование ссылок или изображений, находящихся на странице;
- отображение части текста страницы в сниппете поисковой выдачи;
- отображение поля поиска по сайту в поисковой выдаче;
- и т.п. – все это невозможно реализовать при помощи robots.txt.
В общих чертах это все по данной теме. Но на практике, конечно, возможны сюрпризы и нюансы. Поэтому по традиции предлагаем вам обращаться к нам за консультациями и помощью в технической настройке сайта.
Наш опыт в SEO – более 10 лет, и он весь к вашим услугам! Пишите, звоните или заполняйте форму на сайте.
Определим наиболее подходящую стратегию для поискового продвижения