Site icon Interpult Studio

Почему 100% индексация невозможна и почему это нормально

Когда речь заходит о таких темах, как краулинговый бюджет, историческая риторика всегда заключалась в том, что это проблема крупных веб-сайтов (классифицируемых Google как более 1 миллиона веб-страниц) и веб-сайтов среднего размера с высокой частотой изменения контента.

Однако в последние месяцы сканирование и индексирование стали более распространенными темами на форумах SEO и в вопросах, заданных сотрудникам Google в Twitter.

По моему собственному неофициальному опыту, с ноября веб-сайты разного размера и частоты изменений претерпевают большие колебания и сообщают об изменениях в Google Search Console (как статистика сканирования, так и отчеты о покрытии), чем это было раньше.

Ряд крупных изменений покрытия, свидетелем которых я был, также коррелируют с неподтвержденными обновлениями Google и высокой волатильностью датчиков/наблюдателей SERP. Учитывая, что ни один из веб-сайтов не имеет слишком много общего с точки зрения стека, ниши или даже технических проблем, является ли это признаком того, что 100% индексация (для большинства веб-сайтов) сейчас невозможна, и это нормально?

Это имеет смысл.

Google, в их собственных документах, подчёркивает, что сеть расширяется со скоростью, намного превышающей собственные возможности, и означает сканирование (и индексацию) каждого URL-адреса.


Получайте ежедневный информационный бюллетень, на который полагаются поисковые маркетологи.


В той же документации Google описывает ряд факторов, влияющих на их объем сканирования, а также спрос на сканирование, в том числе:

  • Популярность ваших URL-адресов (и контента).
  • Это затхлость.
  • Как быстро сайт отвечает.
  • Знание Google (воспринимаемый перечень) URL-адресов на нашем веб-сайте.

Из разговоров с Джоном Мюллером из Google в Твиттере известно, что популярность вашего URL не обязательно зависит от популярности вашего бренда и/или домена.

Имея непосредственный опыт крупного издателя, не индексирующего контент на основе его уникальности по сравнению с аналогичным контентом, уже опубликованным в Интернете, — как будто он падает ниже порога качества и не имеет достаточно высокой ценности включения в поисковую выдачу.

Вот почему, работая со всеми веб-сайтами определенного размера или типа (например, электронной коммерции), я с первого дня утверждаю, что 100% индексация не всегда является показателем успеха.

Индексация уровней и сегментов

Google довольно откровенно объяснил, как работает их индексация.

Они используют многоуровневую индексацию (некоторый контент на лучших серверах для более быстрого доступа) и что у них есть индекс обслуживания, хранящийся в нескольких центрах обработки данных, который, по сути, хранит данные, обслуживаемые в поисковой выдаче.

Упрощая это дальше:

Содержимое документа веб-страницы (документ HTML) затем токенизируется и сохраняется в осколках, а сами осколки индексируются (например, глоссарий), чтобы их можно было быстрее и проще запрашивать по определенным ключевым словам (когда пользователь выполняет поиск).

В большинстве случаев в проблемах индексации обвиняют техническое SEO, и если у вас есть отсутствие индекса или проблемы и несоответствия, мешающие Google индексировать контент, то это технические проблемы, но чаще всего — это проблема ценностного предложения.

Полезная цель и ценность включения в поисковую выдачу

Когда я говорю о ценностном предложении, я имею в виду две концепции из рекомендаций Google по оценке качества (QRG), а именно:

  • Благотворная цель
  • Качество страницы

И в совокупности они создают то, что я называю ценностью включения в поисковую выдачу.

Обычно это причина, по которой веб-страницы попадают в категорию «Обнаруженные — в настоящее время не проиндексированные» в отчете о покрытии Google Search Console.

В QRG Google делает следующее заявление:

Помните, что если у страницы нет полезной цели, она всегда должна иметь рейтинг «Самое низкое качество страницы», независимо от рейтинга страницы «Удовлетворение потребностей» или от того, насколько хорошо оформлена страница.

Что это значит? Чтобы страница могла ориентироваться на правильные ключевые слова и ставить правильные галочки. Но если он обычно повторяется в другом контенте и не имеет дополнительной ценности, Google может не индексировать его.

Здесь мы сталкиваемся с порогом качества Google, концепцией того, соответствует ли страница необходимому «качеству» для индексации.

Ключевая часть того, как работает этот порог качества, заключается в том, что он работает почти в реальном времени и плавно.

Гэри Иллиес из Google подтвердил это на Твиттергде URL-адрес может быть проиндексирован при первом обнаружении, а затем удален при обнаружении новых (лучших) URL-адресов или даже получить временное повышение «свежести» за счет ручной отправки в GSC.

Выяснить, есть ли у вас проблема

Первое, что нужно определить, — это если вы видите, что количество страниц в отчете о покрытии Google Search Console перемещается из включенных в исключенные.

Этого графика самого по себе и вне контекста достаточно, чтобы вызвать беспокойство у большинства заинтересованных сторон в маркетинге.

Но сколько из этих страниц вас волнует? Сколько из этих страниц приносят пользу?

Вы сможете определить это по своим коллективным данным. Вы увидите, уменьшаются ли трафик и доход/лиды в вашей аналитической платформе, и вы заметите в сторонних инструментах, если вы потеряете общую видимость на рынке и рейтинг.

После того, как вы определили, видите ли ценные страницы, выпадающие из индекса Google, следующие шаги заключаются в том, чтобы понять, почему, и Search Console разбивает исключенные на дополнительные категории. Основные из них, которые вы должны знать и понимать:

Просканировано – в настоящее время не проиндексировано

Это то, с чем я чаще сталкивался в сфере электронной коммерции и недвижимости, чем в любой другой вертикали.

В 2021 году количество новых регистраций бизнес-приложений в США побил предыдущие рекордыи поскольку все больше компаний конкурируют за пользователей, публикуется много нового контента, но, вероятно, не так много новой и уникальной информации или точек зрения.

Обнаружено – в настоящее время не проиндексировано

При отладке проблем с индексацией я часто обнаруживаю это на веб-сайтах электронной коммерции или веб-сайтах, которые используют значительный программный подход к созданию контента и публикуют большое количество страниц одновременно.

Основные причины, по которым страницы попадают в эту категорию, могут заключаться в краулинговом бюджете, поскольку вы только что опубликовали большое количество контента и новых URL-адресов и экспоненциально увеличили количество сканируемых и индексируемых страниц на сайте, а также краулинговый бюджет, который Google определил, что ваш сайт не предназначен для такого количества страниц.

Вы мало что можете сделать, чтобы повлиять на это. Тем не менее, вы можете помочь Google с помощью карт сайта в формате XML, карт сайта в формате HTML и хороших внутренних ссылок, чтобы передать рейтинг страницы с важных (проиндексированных) страниц на эти новые страницы.

Вторая причина, по которой контент может попасть в эту категорию, связана с его качеством, и это часто встречается в программном контенте или на сайтах электронной коммерции с большим количеством продуктов и PDP, которые являются похожими или вариативными продуктами.

Google может идентифицировать шаблоны в URL-адресах, и если он посещает определенный процент этих страниц и не находит никакой ценности, он может (и иногда будет) делать предположение, что HTML-документы с аналогичными URL-адресами будут такого же (низкого) качества, и он будет выберите не сканировать их.

Многие из этих страниц будут созданы преднамеренно с целью привлечения клиентов, например, программные страницы местоположения или страницы сравнения, ориентированные на нишевых пользователей, но поиск по этим запросам осуществляется с низкой частотой, они, скорее всего, не привлекут много внимания, а содержание может быть недоступно. достаточно уникален по сравнению с другими программными страницами, поэтому Google не будет индексировать контент с низкой ценностью, когда доступны другие альтернативы.

Если это так, вам нужно будет оценить и определить, могут ли цели быть достигнуты в рамках ресурсов и параметров проекта без избыточных страниц, которые забивают сканирование и не рассматриваются как ценные.

Дублированный контент

Дублированный контент является одним из самых простых и часто встречается в электронной коммерции, издательском деле и программатике.

Если основной контент страницы, содержащий ценностное предложение, дублируется на других веб-сайтах или внутренних страницах, Google не будет вкладывать ресурсы в индексирование контента.

Это также связано с ценностным предложением и концепцией полезной цели. Я сталкивался с многочисленными примерами, когда на крупных авторитетных веб-сайтах контент не был проиндексирован, потому что он такой же, как и другой доступный контент — не предлагает уникальных точек зрения или уникальных ценностных предложений.

Принятие мер

Для большинства крупных веб-сайтов и средних веб-сайтов приличного размера достижение 100%-ной индексации будет только сложнее, поскольку Google должен обрабатывать весь существующий и новый контент в Интернете.

Если вы обнаружите, что ценный контент считается ниже порога качества, какие действия вам следует предпринять?

  • Улучшите внутренние ссылки со страниц, которые имеют «высокую ценность»: это не обязательно означает страницы с наибольшим количеством обратных ссылок, но те страницы, которые ранжируются по большому количеству ключевых слов и имеют хорошую видимость, могут передавать положительные сигналы другим страницам через описательные привязки.
  • Сократите низкокачественный, малоценный контент. Если страницы, исключаемые из индекса, имеют низкую ценность и не приносят никакой ценности (например, просмотров страниц, конверсий), их следует удалить. Наличие их в реальном времени просто тратит впустую ресурсы сканирования Google, когда он решает их сканировать, и это может повлиять на их предположения о качестве, основанные на сопоставлении шаблонов URL и предполагаемом инвентаре.

Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.


Новое в поисковой системе

Об авторе

Дэн Тейлор — руководитель отдела технического SEO в СОЛЬ.агентство, технический SEO-специалист из Великобритании, лауреат премии Queens Award 2022. Дэн работает и руководит командой, работающей с компаниями, начиная от технологических и SaaS-компаний и заканчивая корпоративной электронной коммерцией.

Why 100% indexing isn’t possible, and why that’s OK

Exit mobile version