Как избавиться от дублей главной страницы

Содержание

Как быстро найти и удалить все дубли страниц на сайте: 8 способов + лайфхак
Виды дублей
Полные
Частичные
Характеристики в карточке товара
Пагинация
Подстановка контента
Версия для печати
Смысловые
Варианты устранения дубликатов
Физическое удаление
Настройка 301 редиректа
Создание канонической страницы
Запрет индексации файла Robots.txt
Причины возникновения
Как дубликаты влияют на позиции сайта
Инструменты для поиска
Яндекс.Вебмастер
Netpeak Spider
Screaming Frog Seo Spider
Сервис-лайфхак
Вывод
Как убрать дубли страниц сайта — навсегда
Откуда берутся дубли страниц?
Как найти дубли страниц?
Как убрать дубли страниц

Как быстро найти и удалить все дубли страниц на сайте: 8 способов + лайфхак

Дубли — это страницы с одинаковым контентом. Они могут появиться при автогенерации, некорректных настройках, вследствие изменения структуры сайта или при неправильной кластеризации. Дубликаты негативно влияют на SEO-продвижение, так как поисковые системы хуже ранжируют страницы с похожим контентом. Кроме того, большое количество слабых, несодержательных или пустых страниц понижают оценку всего сайта. Поэтому важно своевременно отслеживать и устранять подобные проблемы.

В данной статье подробно рассмотрим, как найти и удалить дубли, а также предотвратить их появление.

Виды дублей

Дубликаты бывают 3-х видов:

Полные — с полностью одинаковым контентом;
Частичные — с частично повторяющимся контентом;
Смысловые, когда несколько страниц несут один смысл, но разными словами.

Зачастую при анализе обращают внимание лишь на полные совпадения, но не стоит забывать про частичные и смысловые, так как к ним поисковики тоже относятся критично.

Полные

Полные дубли ухудшают хостовые факторы всего сайта и осложняют его продвижение в ТОП, поэтому от них нужно избавиться сразу после обнаружения.

К ним относятся:

Версия с/без www. Возникает, если пользователь не указал зеркало в панели Яндекса и Google.
Различные варианты главной страницы:
- site.net;
- site.net/index;
- site.net/index/;
- site.net/index.html;
Страницы, появившиеся вследствие неправильной иерархии разделов:
- site.net/products/gift/
- site.net/products/category/gift/
- site.net/category/gift/
UTM-метки. Метки используются, чтобы передавать данные для анализа рекламы и источника переходов. Обычно они не индексируются поисковиками, но бывают исключения.
GET-параметры в URL. Иногда при передаче данных GET-параметры попадают в адрес страницы:
- site.net/products/gift/page.php?color=red
Страницы, сгенерированные реферальной ссылкой. Обычно они содержат специальный параметр, который добавляется к URL. С такой ссылки должен стоять редирект на обычный URL, однако часто этим пренебрегают.
Неправильно настроенная страница с ошибкой 404, которая провоцирует бесконечные дубли. Любой случайный набор символов в адресе сайта станет ссылкой и без редиректа отобразится как страница 404.

Избавиться от полных дубликатов можно, поставив редирект, убрав ошибку программно или закрыв документы от индексации.

Частичные

Частичные дубликаты оказывают не такое сильное влияние на сайт, как полные. Однако если их много — это ухудшает ранжирование веб-ресурса. Кроме того, они могут мешать продвижению и по конкретным ключевым запросам. Разберем в каких случаях они возникают.

Характеристики в карточке товара

Нередко, переключаясь на вкладку в товарной карточке, например, на отзывы, можно увидеть, как это меняет URL-адрес. При этом большая часть контента страницы остаётся прежней, что создает дубль.

Пагинация

Если CMS неправильно настроена, переход на следующую страницу в категории меняет URL, но не изменяет Title и Description. В итоге получается несколько разных ссылок с одинаковыми мета-тегами:

Такие URL-адреса поисковики индексируют как отдельные документы. Чтобы избежать дублирования, проверьте техническую реализацию вывода товаров и автогенерации.

Также на каждой странице пагинации необходимо указать каноническую страницу, которая будет считаться главной. Как указать этот атрибут, будет рассмотрено ниже.

Подстановка контента

Часто для повышения видимости по запросам с указанием города в шапку сайта добавляют выбор региона. При нажатии которого на странице меняется номер телефона. Бывают случаи, когда в адрес добавляется аргумент, например «wt_city_by_default=..». В результате, у каждой страницы появляется несколько одинаковых версий с разными ссылками. Не допускайте подобной генерации или используйте 301 редирект.

Версия для печати

Версии для печати полностью копируют контент и нужны для преобразования формата содержимого. Пример:

site.net/blog/content
site.net/blog/content/print – версия для печати;

Поэтому необходимо закрывать их от индексации в robots.txt.

Смысловые

Смысловые дубли — это статьи, написанные под запросы из одного кластера. Чтобы их обнаружить, нужно воспользоваться результатом парсинга сайта, выполненного, например, программой Screaming Frog. Затем скопировать заголовки всех статей и добавить их в любой Hard-кластеризатор с порогом группировки 3,4. Если несколько статей попали в один кластер – оставьте наиболее качественную, а с остальных поставьте 301 редирект.

Варианты устранения дубликатов

При дублировании важно не только избавиться от копий, но и предотвратить появление новых.

Физическое удаление

Самым простым способом было бы удалить повторяющиеся страницы вручную. Однако перед удалением нужно учитывать несколько важных моментов:

Источник возникновения. Зачастую физическое удаление не решает проблему, поэтому ищите причину;
Страницы можно удалять, только если вы уверены, что на них не ссылаются другие ресурсы. Проверить это можно с помощью условно-бесплатного инструмента.

Настройка 301 редиректа

Если дублей не много или на них есть ссылки, настройте редирект на главную или продвигаемую страницу. Настройка осуществляется через редактирование файла . htaccess либо с помощью плагинов. Старый документ со временем выпадет из индекса, а весь ссылочный вес перейдет новой странице.

Создание канонической страницы

Указав каноническую страницу, вы показываете поисковым системам, какой документ считать основным. Этот способ используется для того, чтобы показать, какую страницу нужно индексировать при пагинации, сортировке, попадании в URL GET-параметров и UTM-меток. Для этого на всех дублях в теге прописывается следующая строчка со ссылкой на оригинальную страницу:

Например, на странице пагинации главной должна считаться только одна страница: первая или «Показать все». На остальных необходимо прописать атрибут rel=»canonical», также можно использовать теги rel=prev/next.

Для 1-ой страницы:

Для второй и последующей:

Для решения этой задачи на сайтах WordPress используйте плагины Yoast SEO или All in One SEO Pack. Чтобы все заработало просто зайдите в настройки плагина и отметьте пункт «Канонические URL».

Запрет индексации файла Robots.txt

Файле robots.txt — это своеобразная инструкция по индексации для поисковиков. Она подойдёт, чтобы запретить индексацию служебных страниц и дублей.

Для этого нужно воспользоваться директивой Disallow, которая запрещает поисковому роботу индексацию.

Disallow: /dir/ – директория dir запрещена для индексации

Disallow: /dir – директория dir и все вложенные документы запрещены для индексации

Disallow: *XXX – все страницы, в URL которых встречается набор символов XXX, запрещены для индексации.

Внимательно следите за тем какие директивы вы прописываете в robots. П ри некорректном написании можно заблокировать не те разделы либо вовсе закрыть сайт от поисковых систем.

Запрет индексировать страницы действует для всех роботов. Но каждый из них реагирует на директиву Disallow по-разному: Яндекс со временем удалит из индекса запрещенные страницы, а Google может проигнорировать правило, если на данный документ ведут ссылки.

Причины возникновения

Обычно при взгляде на URL-адрес можно сразу определить причину возникновения дубля. Но иногда нужен более детальный анализ и знание особенностей CMS. Ниже приведены 6 основных причин, почему они могут появляться:

ID-сессии, которые нужны, чтобы контролировать действия юзеров или анализировать данные о товарах в корзине.
Особенности CMS. Joomla создаёт большое количество дублей, в отличие, например, от WordPress .
Ссылки с GET-параметрами.
Страницы комментариев.
Документы для печати.
Документы с www и без www.

Некоторые ошибки могут появиться и по другим причинам, например, если не указан редирект со старой страницы на новую или из-за особенностей конкретных скриптов и плагинов. С каждой такой проблемой нужно разбираться индивидуально.

Отдельным пунктом можно выделить страницы, дублирующиеся по смыслу. Такая ошибка часто встречается при неправильной разгруппировке. Подробнее о том как ее не сделать читайте по ссылке.

Читайте также: Крысы мертвого дома знак

Как дубликаты влияют на позиции сайта

Дубли существенно затрудняют SEO- продвижение и могут стать препятствием для выхода запросов в ТОП поисковой выдачи.

Чем же они так опасны:

Снижают релевантность страниц. Если поисковик замечает несколько url-ов с одинаковым контентом, их релевантность снижается и оба документа начинают ранжироваться хуже.
Уменьшают процент уникальности текстов. Уникальность будет разделена между дублирующими документами, а значит копия будет неуникальной по отношению к основной странице. В итоге общая уникальность сайта понизится.
Разделяют вес. Поисковик показывает по одному запросу только 1 станицу сайта (если он не витальный), поэтому наличие нескольких документов снижает вес каждого урла.
Увеличивают время индексации. Поисковый робот дольше сканирует веб-ресурс из-за большого количества документов.

Инструменты для поиска

Как найти дублирующие ся документы? Это можно сделать с помощью программ и онлайн-сервисов. Часть из них платные, другие – бесплатные, некоторые – условно-бесплатные (с пробной версией или ограниченным функционалом).

Яндекс.Вебмастер

Чтобы посмотреть наличие дубликатов в панели Яндекса, необходимо:

выбрать вкладку «Индексирование»;
открыть раздел «Страницы в поиске»;
посмотреть количество «Исключенных страниц».

Страницы исключаются из индекса по разным причинам, в том числе из-за повторяющегося контента. Обычно конкретная причина прописана под ссылкой.

Netpeak Spider

Netpeak Spider – платная программа с 14-дневной пробной версией. Если провести поиск по заданному сайту, программа покажет все найденные ошибки и дубликаты.

Бесплатным аналогом этих программ является Xenu, где можно проанализировать даже не проиндексированный сайт.

При сканировании программа найдет повторяющиеся заголовки и мета-описания.

Screaming Frog Seo Spider

Screaming Frog Seo Spider является условно-бесплатной программой. До 500 ссылок можно проверить бесплатно, после чего понадобится платная версия. Наличие дублей программа определяет так же, как и Xenu, но быстрее и эффективнее. Если нет денег на покупку рабочий ключ можно найти в сети.

Сервис-лайфхак

Для тех кто не хочет осваивать программы, рекомендую воспользоваться техническим анализом от Wizard.Sape. Аудит делается в автоматическом режиме в среднем за 2-4 часа. Цена вопроса — 690 рублей. В течении 30 дней бесплатно можно провести повторную проверку.
Помимо дублированного контента и мета-тегов инструмент выдает много полезной информации:

показывает все 301 редиректы;
обрабатку заранее ошибочных адресов;
страницы на которых нет контента;
битые внешние и внутренние ссылки и картинки.

Вывод

Полные и частичные дубли значительно осложняют продвижение сайта. Поэтому обязательно проверяйте ресурс на дубликаты, как сгенерированные, так и смысловые и применяйте описанные в статье методы для их устранения.

Источник

Как убрать дубли страниц сайта — навсегда

Одна из самых важных стадий сео аудита, которая поможет не только сделать сайт более привлекательным для поисковых систем, но и даст более четкое видение того, какие подводные камни имеет сайт Вашей фирмы, это поиск дублей.

Скорее всего, Вы уже где-то слышали про дубли, про то, что из-за этих маленьких гадов сайт может терять позиции в поисковиках, Ваша фирма недополучает клиентов, а Вы теряете в зарплате. Сегодня я простым языком расскажу, что такое дубли, из-за чего они берутся, как их найти и как с ними бороться.

Дубли — это страницы с полным или частичным дублированием контента.

То, что дубликаты не приносят Вам ничего хорошего, понятно на интуитивном уровне. Чтобы не уходить далеко в терминологию и теорию, скажу лишь, что каждая страница любого сайта обладает неким весом. Если на том же самом хосте появляется ее дубликат, этот вес размывается. Если поисковая система (особенно Яндекс) не может сразу определить каноническую страницу (то есть ту, которая на самом деле является оригиналом), она может показывать неправильную страницу в поиске или просто пессимизировать (то есть занижать) ее позиции в выдаче из-за наличия неуникального контента. Поэтому нужно как можно раньше разобраться с проблемой наличия дубликатов на Вашем сайте.

Откуда берутся дубли страниц?

Итак, откуда они вообще берутся? В 95% случаяев дубли страниц генерируются CMS, на которой сделан Ваш сайт или вебсервером. Не то чтобы CMS была в этом виновата. Скорее тот, кто ее настраивал. Чем более сырой вариант системы Вы используете, тем, как правило, больше косяков в ней находится.

По факту, неудачно выбранная cms может плодить дубли хоть на пустом месте, и тут надо рассматривать каждый отдельный случай, ставить диагноз и назначать лечение. Ну, хватит воды, давайте поговорим о том, как на практике найти и убрать дубли страниц.

Первая причина дублей — это ненастроенные редиректы. Здесь необходимо проверить 4 вещи:

Редирект на главное зеркало: проверяем главную страницу с www и без. Наличие дублей главной страниц по адресами /index. php и /index. html. Неконечные страницы со слешем и без слеша на конце. Если страница существует в обоих вариантах, необходимо остановиться на одном. Конечные страница с окончанием . php и . html

Далее поговорим о такой распространенной штуке, как рубрикаторы, сложные каталоги, сервисы по подбору товаров, страницы сортировки и тому подобное. Для примера рассмотрим сайт интернет магазина детских товаров.

На абсолютном большинстве сайтов есть лазейка на страницах пагинации. Страницы пагинации — это страницы каталога, которые открываются по кнопкам с номерами 1, 2, 3, 4 и так далее. Как правило, если Вы открываете какой-нибудь каталог, например, «Деревянные игрушки», то эта страница является первой. Дальше переходим на следующую, нажав кнопку 2. Смотрим на url. В нем появляются дополнительные параметры. А теперь вернемся на первую страницу, нажав в меню кнопку 1. Сравним адреса. Видите разницу? Это дубли. Итак, фишка в том, что в каталогах с пагинацией главная страница и страница, которая открывается через кнопку, 1 являются дублями.

Как найти дубли страниц?

Сегодня я покажу 2 способа. Первый — трудный и долгий. Второй — быстрый и легкий.

Способ первый — искать подозрительные страницы в выдаче. Открываем Яндекс, вводим туда Site:yoursite.ru , где yoursite.ru — адрес сайта Вашей компании. Не забудьте поставить www. , если оно присутствует в адресе главного зеркала. Что такое главное зеркало, смотрите в отдельном видео. Данный запрос показывается все страницы сайта, которые участвуют в индексе. Бегло просматриваем, ищем подозрительные урлы, подозрительные описания, страницы ошибок и прочее. Это трудоемкий способ, но помимо дублей он поможет выявить различные ошибки, о которых Вы возможно никогда бы и не узнали. Советую хотя бы раз провести подобную проверку.

Второй способ : софт и сервисы для парсинга мета информации. Подумайте сами, у страниц дубликатов не только одинаковое содержание, но и идентичные тэги title и description.

Соответственно, найдя одинаковые тайтлы, мы найдем одинаковые страницы. Сегодня есть довольно много способов это сделать. Самым простым и доступным я считаю google webmaster. Заходим и ищем вкладку «оптимизация html» или «html improvements» в английской версии. Здесь google выдает рекомендации по оптимизации мета информации. Смотрите в каком месте Вашего сайте закрались страницы с одинаковыми мета тегами, проверяйте вручную, действительно ли это дубли и уже тогда устраняйте. Кстати, даже если какие-то страницы не окажутся дублями, одинаковых мета тегов на сайте также быть не должно. Меняйте!

Как убрать дубли страниц

Здесь в общем-то достаточно всего одного способа, о котором я и расскажу. Закрывайте дубли в robots. txt. Этого должно хватить. Внимательно посмотрите видео о составлении robots. txt для того, чтобы закрыть страницы сортировок и группировок.

Для этого необходимо прописать в роботсе параметр, который генерирует страницы. Выглядеть команда будет примерно так:

Если вам нужна помощь заходите сюда

Источник