Дубли страниц сайта — что это такое? Как их найти и обезвредить?
Эта статья адресована
☑ владельцам компаний и организаций, желающим иметь представление о SEO-технологиях
☑ сотрудникам, курирующим работу создателей сайтов и SEO-специалистов
☑ интернет-маркетологам и представителям смежных профессий, которым для своей работы хорошо бы понимать основы SEOВозможно, она будет также интересна и начинающим SEO-шникам. А опытные гуру нашей сферы, может быть, с чем-то поспорят или что-то добавят к сказанному нами. Почему бы и нет?Ну, что? Поехали!
Что такое дубли?
Дубли на сайте – это, попросту говоря, непорядок. Надо чтобы их не было. Но как этого добиться?
И тут у нас для владельцев сайта две новости: плохая и хорошая.
Плохая: появление дублей практически неизбежно. Расслабляться в надежде, что вас это минует, не приходится.
Но хорошая новость приносит облегчение: способы борьбы с любыми видами дублей уже найдены, а для многих из них есть технологии профилактики.
У тех, кто впервые узнал о существовании зловредных дублей, возникает сразу целый ряд вопросов:
- Что это вообще такое?
- Насколько это серьезно?
- Кто виноват в их появлении?
- Как их обнаружить?
- Что с ними делать?
- Что делать, чтобы они не появлялись?
Начнем разбираться по порядку.
Дубли страниц сайта – это веб-страницы на одном домене
с отличающимися URL-адресами (отличия могут быть минимальны, буквально в один знак, или значительны), но с идентичным или очень похожим контентом.
А еще дублироваться может весь сайт целиком! Причем неопытный владелец оного может об этом даже не догадываться! Но о видах дублей и возможных причинах их появления расскажем ниже, а в первую очередь объясним, почему с дублями надо стараться вовремя разбираться и по возможности их сразу же устранять.
Чем чревато появление дублей на сайте?
1⃣ Снижение скорости индексирования сайта
Это станет первой проблемой. За ней последуют другие, не заставив себя долго ждать. Логика тут простая. В SEO есть такое понятие как краулинговый бюджет.
Краулинговый бюджет – это ограничение по количеству страниц сайта, сканируемых поисковым роботом за единицу времени.
Ключевое слово здесь – «ограничение». Оно означает, что при любых заслугах вашего сайта перед поисковыми системами их роботы не будут обходить ваш сайт бесконечно и ежеминутно.
Чем больше дублей на сайте, тем ниже шансы поискового робота успеть проиндексировать все имеющиеся страницы. Тем с большей вероятностью действительно важным страницам придется ждать следующего его визита, чтобы вообще попасть в индекс.
А ведь само по себе присутствие на сайте дублирующих страниц становится фактором уменьшения краулингового бюджета. Проблема нарастает, как снежный ком!
Соответственно, всегда стоит стараться помочь поисковикам быстро выбирать нужные вам страницы для индексирования, удаляя дубли или каким-то образом сообщая роботу, какая страница из группы похожих должна быть изученной в первую очередь. Порядок в этом вопросе, скрупулезное и оперативное устранение дублей, напротив, будут способствовать увеличению краулингового бюджета вашего сайта. Позиции в выдаче пойдут в рост!
2⃣ Исчезновение важных страниц из выдачи поисковых систем
Если поисковый робот из-за недостаточного краулингового бюджета при очередном своем визите просто не доберется до основной страницы, она может пропасть из индекса, уступив свое место дублю. Будет печально. Тем более что в большинстве случаев такая рокировка влечет за собой заметное снижение в рейтинге поисковика.
3⃣ Борьба страниц-дублей между собой за позицию в выдаче
Если дублей несколько, они могут сменять друг друга в выдаче. Позиции в выдаче станут еще хуже. И чем дольше будет сохраняться такая ситуация, тем сложнее будет ее исправить – ведь на дубли тоже станут заходить пользователи, поисковики это увидят и, неровен час, оценят эти страницы выше основной. Попробуй потом объяснить им, что это не так! Лучше с наведением порядка не затягивать.
4⃣ Потеря внешнего ссылочного веса
Пользователь, попавший на страницу-дубль, рекомендуя ваш сайт своим знакомым, поделится ссылкой на дубль, а не на оригинал. Если впоследствии дубль будет удален, ссылка канет в Лету вместе с ним. А их так непросто приобретать, эти рекомендации! Старайтесь вовремя делать все для того, чтобы пользователи ссылались на правильные страницы вашего сайта.
5⃣ Потеря внутреннего ссылочного веса
Такое тоже бывает – если возникают ошибки при внутренней перелинковке. Не убрали вовремя дубль, потом по невнимательности поставили ссылку на него, а не на основную страницу, позже удалили дубль – и ссылка в итоге ведет на уже исчезнувшую страницу. Вывод: сначала устранение дублей, потом внутренняя перелинковка.
6⃣ Наложение на сайт санкций поисковых систем
Не любой дубль влечет за собой эти санкции, но все же такое возможно: если поисковые роботы решат, что дубли созданы намеренно с какой-то коварной целью, или сочтут контент на них низкокачественным, то сайт может пропасть из поиска полностью.
7⃣ Увеличение нагрузки на сайт в результате работы поисковых роботов с дублями
Неприятной неожиданностью для веб-мастера может стать жалоба хостера на чрезмерную нагрузку на сервер со стороны вашего сайта и требование перейти на более дорогой тариф. Если анализ IP при этом показывает, что основная часть запросов поступает со стороны Яндекса и Гугла, то, вероятно, причина в появлении большого количества дублей. Проблема может быть решена просто их устранением. И увеличения платы за хостинг удастся избежать.
Как видите, причин для беспокойства немало. Полагаем, после всего вышесказанного становится совершенно ясно, что пускать на самотек ситуацию с дублями не стоит. Скажем еще пару слов о разнице в отношении к дублям разных поисковых систем.
Из практики: как работают с дублями Яндекс и Гугл
Google поднимает в выдаче то, что выбирают пользователи
Гугл имеет обыкновение отслеживать, на какие из страниц-дублей есть трафик – то есть куда заходят пользователи. А те могут заходить, например, на страницу фильтра, а не каталога – если им удобнее искать товары по набору предложенных в фильтре параметров.
В качестве иллюстрации: вот так на популярном маркетплейсе осуществляется поиск по каталогу.
А так – по фильтру.
Какой из этих вариантов будут чаще выбирать пользователи – одному Гуглу известно.
И если Гугл видит, что на страницу фильтра посетители заходят активнее, то ее он и будет поднимать в выдаче.
Но дело в том, что в результате работы фильтра могут генерироваться очень похожие по содержанию страницы. Например, по параметрам «Светлое» и «Белое» или «Деловое» и «Офисное» могут быть показаны в большинстве своем одни и те же платья. Таких совпадений и пересечений может быть множество. Поэтому результаты фильтрации лучше сразу закрывать от индексации. Потому что если вдруг владелец сайта поздно спохватится, что у него получается огромное количество результатов фильтрации, то трафик после их закрытия от индексации может просто обрушиться! Казалось бы, внесена правильная корректировка, а поток посетителей внезапно иссяк! Что же делать? Проще всего таких ситуаций не допускать – постоянно отслеживать появление дублей и тут же их устранять. А если все же подобное произошло, то нужные правки все равно вносим – и ждем, когда поисковая система по достоинству оценит наши труды.
Яндекс собирает в индекс всё имеющееся в наличии, а потом думает, что делать с дублями
Он может объединить все найденные им дубли в группу и самостоятельно выбрать основную страницу. Только вот нет гарантии, что он выберет нужную вам. В результате правильная страница пропадает из поиска.Если Яндекс не создает группу из дублей, то они начинают рандомно сменять друг друга на лидирующих позициях. И что мы в итоге получаем? Мало того, что сайт сражается с другими за место в выдаче, так еще и его собственные страницы конкурируют между собой – и ни одна не имеет должного трафика.
Словом, оба наиболее популярных поисковика относятся к дублям отрицательно. Значит, углубляемся в изучение видов дублей, причин их появления и способов борьбы с этим явлением.
Виды дублей
Зеркала сайта
Зеркало сайта – это сайт с контентом, идентичным контенту основного сайта.
Представляете, какой может быть конфуз: вы дубль – всего сайта целиком! – не создавали, а он есть. Или создали неосознанно. Или все-таки осознанно. Итак…Зеркала бывают нескольких подвидов.
Подвид 1 – зеркала с www и без них
Рассказ о нем можно было бы начать так: «Давным-давно, на заре Интернета еще не было доменов первого уровня типа ru, com, net и т. п., а все адреса сайтов начинались с www – то есть имели вид www.site».
Позже, по мере нарастания интернетизации стран и континентов были внедрены те самые ru, com и прочие доменные имена первого уровня, но www не было упразднено полностью. Оно сдвинулось на третий уровень и по умолчанию выдается в нагрузку к каждому вновь регистрируемому домену второго уровня.
Плюс этой ситуации в том, что неискушенные «в этих ваших интернетах» пользователи, набирающие адрес вашего сайта с тремя W и точкой перед основным доменным именем второго уровня, могут попасть на тот же сайт, что и продвинутые посетители, знающие, что www уже неактуальны. Минус – в том, что версия адреса сайта с www является дублем, с которым надо что-то решать. Конкретно – надо решить, какую версию вы назначите основной, и уведомить об этом поисковики.
Подвид 2 – зеркала с префиксами http и https
В настоящее время веб-мастера активно переводят вверенные им сайты с протокола http и на более безопасный протокол https, обеспечивающий шифрование передаваемых данных. Для такого перехода достаточно установить сертификат SSL. Причем если владелец сайта создавал его при помощи какого-либо конструктора, то есть вероятность, что установка для него будет выглядеть как просто установка одной галочки в предложенной разработчиками конструктора форме. И вуаля! – дубль сайта готов. Само по себе это не страшно. Главное сразу сообщить поисковикам, что основное зеркало – то, которое с https. После этого можно приступать к SEO-мероприятиям по продвижению версии с https. Но не раньше!
Подвид 4 – зеркала с одним доменом второго уровня в зонах ru и com
Но только в том случае, если контент сайта на русском языке в обоих зонах. Так бывает, когда домены выкупаются исключительно с целью защититься от конкурентов, а ориентированности на англоязычную аудиторию на самом деле нет. Получаются полные дубли контента. Решение то же, что и выше.
Подвид 5 – разные домены второго уровня с идентичным контентом
По мере развития компании может встать вопрос о ребрендинге. Соответственно, доменное имя будет сменено, а весь контент старого сайта (или большая его часть) скопируется на новый. Чтобы сайт-новичок не улетел в бан как плагиатор по оценке поисковых роботов, надо также сообщить им, что все в порядке, это просто зеркало, причем основное.
Подвид 6 – основной домен и его версии с ошибками
Иногда доменные имена с ошибками выкупают владельцы основного сайта, чтобы не терять тех пользователей, который, например, вместо https://site.ru будут вводить в строку браузера https://sait.ru или https://cayt.ru. Ну, вы поняли. Схема рабочая, только надо склеить зеркала, указав основное.
Подвид 7 – дополнительные зеркала, созданные для поддержки основного сайта
Крупные сайты могут нуждаться в зеркалах, специально созданных для поддержания бесперебойной работы ресурса. Обычно созданием и управлением всем этим веб-хозяйством занимаются высококвалифицированные специалисты. Задача владельца компании в этом случае – найти профессионалов, которым можно доверить эту работу.
Дубли страниц
Дубли главной страницы вида
https://site.ru/index.phphttps://site.ru/index.html
https://site.ru/index.htm
Если вкратце, дубли с index.php, с index.html образуются при разного рода обращениях сервера – к файлу в папке на сайте, к самой папке. Объяснять все нюансы технологии образования этих дублей будет долго, но это и не обязательно. Главное уяснить, что, как и в предыдущих случаях, важно указать поисковикам на основное зеркало.
Со множеством завершающих или внутренних слешей
Выглядит это примерно так:
https://site.ru//////razdel/https://site.ru/razdel/////
Не спрашивайте нас, откуда они берутся. Мы тоже задаемся этим вопросом, когда встречаем такое чудо на клиентских сайтах. Важнее не обнаружить источник, а поскорее устранить их. В данном случае надо убрать лишние слеши. URL должен иметь разумный формат без лишних знаков, вводящих в недоумение и людей, и поисковых роботов.
Технические дубли с get-параметрами в URL-адресах
Это могут быть страницы
- фильтрации
- сортировок
- печати
- поиска по сайту
- рекламные и другие utm-метки
- личные кабинеты пользователей
- и пр.
Страницы одного и того же товара с разными URL-адресами
Одно и то же платье может оказаться в разделах каталога «Офисные платья», «Платья-миди», «Платья с длинным рукавом». Одна и та же книга – в разделах «Детские книги», «Книги о путешествиях», «Р. Л. Стивенсон». Одно и то же изделие – в разделах «Отвертки» и «Электроинструмент». Если в адресе при этом будет указано на раздел, из которого посетитель попал на карточку товара, то могут появиться подобные дубли:
https://site.ru/dress/business/456778https://site.ru/dress/longsleeve/456778
https://site.ru/dress/midi/456778
Вот пример с сайта шоколадной фабрики «Конфаэль». Карточка плитки горького шоколада с изображением кредитки на обертке обнаруживается в разделах «Деловые подарки», «Постный шоколад», «Горький шоколад» и «Подарки на выпускной».
Но в данном случае веб-мастер грамотно настроил работу сайта таким образом, что из любого раздела происходит переход на карточку товара с одним и тем же коротким адресом, в котором упоминается только собственно каталог и сразу же за ним – название товара: https://confaelshop.ru/catalog/the_chocolate_is_credit_card/
В итоге все в порядке. Дублей нет.
Но в этом случае, судя по всему, тематические подборки тщательно продумываются разработчиком, а фильтров такого типа, который мы видим на популярных маркетплейсах, нет. Соответственно, нет вероятности появления не предусмотренных создателем сайта страниц с одинаковым набором товаров, но разными адресами. Если же такая вероятность имеется, то результаты фильтрации лучше сразу закрыть от индексации.
Практически любые страницы при неправильно настроенной обработке 404-й ошибки
В этом случае может образоваться огромное множество дублей любых страниц с любыми символами в URL-адресах – и все это может лезть в индекс, образуя глобальную проблему, когда появляется безграничное количество страниц с минимальной разницей в адресах: точка, дефис, рандомная буква. И все эти страницы отбирают друг у друга драгоценную релевантность. Чем их больше, тем релевантность сильнее падает, что крайне печально.
Лечение тут одно – нужно срочно настраивать обработку 404-й ошибки.
Страницы тегирования, авторов, сортировок по датам
Эти и подобные страницы могут становится дублями при определенных условиях.
Если по каким-то тегом на сайте помечена только одна публикация, то возможно появление дублей типа
site.ru/tag
site.ru/news
Если в интернет-магазине продается только одна книга автора, то – появление дублей типа
site.ru/author
site.ru/book
Если за год опубликована единственная новость, то могут образоваться дубли с адресами, указывающими на любой период в рамках года:
site.ru/day
site.ru/month
site.ru/yearsite.ru/may-october
Проблема решается настройкой 301-го редиректа на страницу, которую вы считаете основной, со всех прочих страниц.
Страницы с прописными и строчными буквами в адресе
Пример:
https://site.ru/razdel/https://site.ru/Razdel/
и даже могут встретиться https://site.ru/RaZdEl/, https://site.ru/rAzDeL/ и прочие варианты произвольной комбинации знаков верхнего и нижнего регистра.
Проблема решается 404-м ответом на ошибку в регистре или 301-м редиректом на правильный адрес. Что выбрать, каждый веб-мастер решает по ситуации, помня о том, что с количеством редиректов желательно не перебарщивать.
Частичные дубли
Карточки похожих товаров
Если среди товаров в интернет-магазине есть очень похожие, отличающиеся, например, только цветом и размером, то контент в карточках этих товаров будет частично идентичным. Отличия окажутся настолько незначительными, что поисковики наверняка посчитают эти страницы дублями. Но в этом случае проблему не решить настройкой 301-го редиректа – ведь нужно оставить посетителям возможность увидеть каждый товар.
Решений тут может быть три.
1⃣ Объединяем незначительно отличающиеся товары в группы и добавляем селекторы для выбора меняющихся характеристик.
Классический пример такого решения – сайты по продаже одежды.
Вот здесь в одну группу объединены 5 разных по цвету ветровок.
Цвет и размер пользователь выбирает, а характеристики остаются неизменными.
2⃣ Сделать уникальные описания
А вот на сайте по продаже развивающих игрушек товары в разделе «Бизиборды» отличаются все-таки не только размером. Есть возможность сделать уникальные описания. Это и было реализовано.
3⃣ Скрыть базовую часть описания от индексации
Если по какой-то причине первые два варианта не походят, можно использовать тег noindex и просто запретить роботам индексировать описание вот так:
<noindex>текст, который надо закрыть от индексации</noindex>
Но! Надо учитывать, что это решение актуально только для Яндекса. Так что этот вариант рассматриваем в последнюю очередь.
Услуги и статьи о них
Тем, кто описывает услуги компании и пишет статьи о них, а также тем, кто формирует задание копирайтеру на написание текстов для сайта, надо иметь в виду, что похожий по содержанию контент на двух разных страницах тоже может быть принять поисковиком за дубли.
Это не значит, что статьи отменяются. Но над их содержанием стоит хорошо подумать. Статья должна раскрывать ту же услугу с какого-то принципиально нового ракурса. Это, кстати, и пользователям будет интереснее читать. А поисковики в таком случае оценят не только уникальность контента, но и его привлекательность для людей.
Дубли древовидных комментариев на сайтах на вордпрессе
Когда кто-то отвечает на комментарий к публикации, автоматически генерируется новый URL, который расценивается поисковиками как дубль.
Отключить древовидные комментарии – самое простое, но не самое лучшее решение этой проблемы. Активность пользователей на страницах вашего сайта – великолепный поведенческий фактор, который желательно всячески приветствовать.
Все прочие варианты потребуют привлечения программиста, поэтому тут мы их описывать не будем, скажем просто, что они есть.
Страницы пагинации
Пагинация – это разделение результатов поиска по сайту на страницы. Применяется, если таких результатов слишком много для одной единственной страницы.
Вот пример с популярного маркетплейса. Внизу страницы видим нумерацию. Это и есть пагинация.
Ссылка на первую страницу выглядит так:
https://www.wildberries.ru/catalog/knigi-i-kantstovary/kantstovary/bumazhnaya-produktsiya/tetradiВсе последующие имеют чуть более длинные адреса, отличающиеся только номером:
https://www.wildberries.ru/catalog/knigi-i-kantstovary/kantstovary/bumazhnaya-produktsiya/tetradi?page=2https://www.wildberries.ru/catalog/knigi-i-kantstovary/kantstovary/bumazhnaya-produktsiya/tetradi?page=25
Представляете, сколько тетрадей на WB? 25-я страница – далеко не последняя! Как в этой толпе пробиться начинающим продавцам?.. Но мы сейчас не об этом.
Чтобы страницы пагинации не стали для поисковиков дублями, сообщаем им, что основной (канонической) является первая страница. Для этого используем атрибут rel=»canonical».
Разница в URL-адресах в любом, даже незначительном символе расценивается поисковиками как дублирование. Даже дефис и нижнее подчеркивание – это разные символы.
Это, например, дубли:
site.ru/razdel-test/
site.ru/razdel_test/
И это:
site.ru/razdel-test?
site.ru/razdel-test
А что дублями не является?
Зеркала с одним доменом второго уровня в зонах ru и com, если контент на разных языках
А также в любых других зонах, относящихся к разным языкам. Если в каждой версии контент переведен на соответствующий язык, то поисковые роботы отнесутся к зеркалам благосклонно.
Страницы с отличающимися знаками после #
После символа # в урле поисковые системы уже не учитывают другие знаки.
К примеру, вот это – не дубли.
site.ru/razdel-test
site.ru/razdel-test#122558455
Как найти все дубли, которые вы специально не создавали
В Яндекс Вебмастере
Выбираем вкладку «Индексирование» / «Страницы в поиске» / «Исключенные» в правой части страницы. Крутим вниз, жмем «Скачать таблицу». В ней находим дубли по статусу DUPLICATE.
Что с ними делать, поможет рекомендация самого Яндекса, расположенная по адресу
https://webmaster.yandex.ru/blog/kak-obnaruzhit-dubli-stranits-na-saВ GoogleSearchConsole
Выбираем вкладку «Индексирование» / «Страницы». На дубли в перечне ошибок укажет строка «Страница является копией. Канонический вариант не выбран пользователем».
О том, как решить проблему с теми или иными дублями вкратце было сказано выше. Подробнее о работе с ними с технической частью сайта мы рассказывали в этой статье, ориентированной главным образом на SEO-специалистов.
Владельцам же сайтов и интернет-маркетологам без квалификации SEO-специалиста рекомендуем сосредоточиться на грамотной разработке контент-стратегии и формировании подробного ТЗ для сеошника. Такой подход даст наилучший конечный результат.
А мы готовы
- ответить на ваши дополнительные вопросы к статье,
- провести SEO-аудит сайта,
- устранить дубли и другие ошибки на вашем сайте в его технической и контентной части,
- и даже выполнить полный комплекс SEO-услуг.
Определим наиболее подходящую стратегию для поискового продвижения