Техническое SEO руководство по продвижению, индексации и ранжированию

Техническое SEO руководство по продвижению, индексации и ранжированию

A_Technical_SEO_Guide_to_Crawling__Indexing_and_Ranking_-_State_of_Digital

Перевел полезную статью Paddy Moogan из западного SEO блога stateofdigital.com — в ней очень подробно раскрывается тема про индексацию контента сайта и создание сайтов для людей.

От технического SЕО можно в ряде случаев отказаться в пользу таких решений, как создание контента, работа со СМИ и покупка ссылок. Однако я всегда полагал, что существует много возможностей для увеличения трафика, смотря изнутри, а не снаружи. Я полагаю, что одна из самых важных задач – это убедиться, что данный веб-сайт в полной мере подходит для поисковых систем.

Это довольно просто – если поисковые системы не могут эффективно сканировать ваш веб-сайт, вы вряд ли сможете заняться продвижением. А ссылки и SMM не решают все вопросы.

В этой статье я хочу рассмотреть некоторые из основных моментов, о которых вам нужно знать, когда речь идёт о создании доступного для поисковиков веб-сайта. Доступность веб-сайта означает, что все основные страницы будут проиндексированы и могут быть ранжированы для ваших целевых ключевых запросов.

Чтобы сохранить логику в статье, я бы выделил три основные направления:

  • Сканирование
  • Индексирование
  • Ранжирование

Сканирование

Прежде всего, вам необходимо убедиться, что все наши целевые страницы могут быть просканированы поисковыми движками. Я говорю «целевые страницы», потому что могут быть случаи, когда у вас появиться намерение активно остановить сканирование определённых страниц. Это я объясню впоследствии.

В первую очередь давайте посмотрим, как нам сделать наш веб-сайт сканируемым и как находить потенциальные проблемы.

Хорошая архитектура сайта

Хорошая архитектура веб-сайта является не только удобной для поисковых движков, она подходит также для пользователей. Короче говоря, вы хотите убедиться, что ваши самые важные страницы легко обнаружить в идеале за несколько кликов от главной страницы, и это эффективно по следующим соображениям:

  • Обычно больше всего ссылок поступает на вашу главную страницу и, следовательно, можно передать на оставшийся сайт большой рейтинг PageRank.
  • Посетители смогут быстро найти ваши основные страницы – увеличивается вероятность нахождения того, что нужно, и превращения их в ваших покупателей.

Упрощённая структура сайта будет выглядеть так:

упрощённая структура

Если вы владеете сайтом электронной торговли, детальные страницы в этом примере будут страницами вашего продукта.  Рассмотренная логическая структура рекомендуется для веб-сайтов размером от небольшого до среднего.

Но что делать, если ваш веб-сайт содержит миллионы страниц? Даже с хорошей структурой категорий ваш основной продукт будет далёким от домашней страницы. В этом случае вам может потребоваться решение вопроса о внедрении многогранной навигации, которая может помочь вам. Многогранная навигация адаптируется к тому, что ищет пользователь, и удаляет много ненужных вещей, обеспечивая лёгкую фильтрацию для нахождения именно того, что требуется. Наилучшее, что можно сделать, – это показать пример того, что я имею в виду. К счастью, мои коллеги из Madgex написали эту хорошую статью и создали вот такой наглядный пример:

фильтрация

Как вы можете видеть, пользователю очень легко отфильтровать большое количество информации быстро, щёлкая по атрибутам, которые ищутся. Это хорошая технология для веб-сайтов, так как обычно имеются все виды атрибутов продукта – таких как как размер, цвет, бренд и т.д., которые вы можете разрешить пользователю отфильтровывать. Наглядным примером этого же решения с другим типом веб-сайта является сайт о работе Reed. Когда вы заходите в категорию, такую как Accountancy, фильтры с левой стороны подгоняются под эту категорию, так что вы можете фильтровать вакансии с помощью атрибутов Accounts Assistant или Credit Controller. Но вы не получите этих опций, если зайдёте в категорию Marketing. Именно так большие веб-сайты могут облегчить пользователям и поисковым движкам быстрый доступ к отдалённым страницам.

В отношении скорости сканирования здесь можно отметить ещё одну особенность. Иногда вы можете захотеть избавится от страниц глубокой вложенности и запретить сканировать и находить страницы с большим количеством атрибутов. Например, давайте скажем, что мы продали всю одежду для прогулок и сконцентрировались только на жакетах. У жакета могут быть следующие показатели:

  • Цвет
  • Размер
  • Пол потребителя
  • Бренд
  • Цена
  • Водостойкость

Также мы знаем, что ключевое словосочетание, – такое как «водостойкие жакеты для мужчин» имеет достаточно большое количество запросов судя по данным из инструмента подборка ключевиков Adwords. Поэтому мы хотим иметь такую страницу, где поисковые системы могут сканировать, индексировать и ранжировать информацию для этого ключевика. Мы можем убедиться в возможности этого благодаря нашей многогранной навигации, которая обеспечивает простоту и лёгкость нахождения ссылок.

С другой стороны, такое ключевое словосочетание, как «чёрный мужской водостойкий жакет до £100» имеет крайне малое количество поисковых запросов. Так что нам представляется возможным прекращение сканирования и индексирования такой страницы поисковыми движками. Но очевидно, нам бы хотелось, чтобы страница осталась доступной для пользователей, когда они применяют нашу навигацию.

Зачем об этом заботиться? Принцип бюджета сканирования или разрешения на сканирование в этом сообщении рассматривается, и я буду обсуждать это в следующем разделе. Ниже мы с вами поговорим о том, как нам прекратить сканирование и индексирование некоторых страниц.

Бюджет сканирования

Google выделяет бюджет сканирования каждому домену. В соответствии с Мэтом Катсом(см. интервью в котором в частности говорится о бюджете сканирования), этот бюджет определяется ориентировочно рейтингом PageRank, который у вас есть. Пока Google стремится найти необходимый контент, мы используем имеющийся уровень ресурсов, чтобы сканировать разрастающуюся паутину. Необходимо назначить приоритеты и быть некоторым образом избирательным – требуется, как минимум, убедиться, что «хороший материал» сканируется наилучшим образом. Я интерпретирую его комментарии, как утверждение, что Google будет сканировать и индексировать ваш веб-сайт столько, сколько сможет. Однако если ваш рейтинг PageRank невысок, то понадобится немало времени, чтобы исследовать всё и найти отдалённые страницы на вашем веб-сайте.

cutts-enge-interview1

cutts-enge-interview2

Контроль сканирования

Мы знаем, что вы можете создать более качественные ссылки на свой веб-сайт, а это может помочь с вашим рейтингом PageRank. Это то, что нам однозначно необходимо сделать. Но вы можете работать и над вопросом оптимизации своего бюджета сканирования, сделав несколько шагов, чтобы аккуратно подтолкнуть Google на нужное направление, когда происходит сканирование:

  • Добавьте тег rel=”nofollow” к ссылкам на малозначимые страницы, которые вы не хотите отдавать Google для сканирования.
  • Сделайте ссылки такими, чтобы Google было трудно их обходить, например с помощью Javascript или AJAX.
  • Блокируйте некоторые страницы в своём файле robots.txt, чтобы Google прекратил их сканирование.

Целью всего этого является не контролирование PageRank, а попытка проверить, какие страницы использует ваш бюджет сканирования. Плохо, если Google использует весь свой бюджет сканирования на страницах которые не принесут никакого трафика к вам на сайт.

Так же, как rel=”nofollow” и robots.txt, вы можете использовать МЕТА-теги, чтобы проконтролировать, как Google сканирует ваш веб-сайт. Они помещаются в <head> секции вашей страницы и могут сделать многое, включая:

  • Сообщение Google: не индексировать страницу
  • Сообщение Google: сканировать любые ссылки на страницу
  • Сообщение Google: не индексировать картинки на странице
  • Сообщение Google: не использовать отдельных отрывков страницы в результатах поиска
  • Вышеназванные комбинации
    комбинация тегов

Помните, что названные теги – работают на уровне страниц, и они затрагивают только саму страницу. Ещё одна важная деталь, которую нужно иметь в виду, – это то, что поисковые движки должны добираться до самой страницы, чтобы увидеть этот тег. Так что если вы блокируете страницу в robots.txt, то поисковые движки, возможно, никогда не просканируют страницу и не найдут там МЕТА-тега.

Краткое резюме и пояснение:

  • Тег rel=”nofollow”, используемый в индивидуальной ссылке, воздействует на то, как Google относится к этой ссылке. Он не воздействует на другие ссылки в вашем веб-сайте.
  • МЕТА-тег rel=”nofollow” – это представление уровня страницы,  воздействующий на все ссылки там, где он помещён.
  • Файл robots.txt может воздействовать на отдельные страницы, отделы веб-сайта или на весь веб-сайт

А как насчёт тега rel=canonical? Он позволяет владельцам веб-сайта определить каноническую версию страницы и ключевой скопированный или почти скопированный контент, подавая поисковым движкам сигнал о страницах, которые они могут или не могут сканировать, индексировать и ранжировать. В этом месте вам нужно отметить, что данный тег – это не директива, то есть, поисковые движки могут выбирать методы обращения с тегом и иметь возможность игнорировать его по своему усмотрению.

Этот тег может помочь вам убедиться, что скопированный контент не помешает вашему веб-сайту, и позволит определить, что правильный URL видят пользователи в результатах поиска. За время сканирования было бы разумно для тега чаще уводить поисковые движки от сканируемых скопированных страниц. Но так же, как и МЕТА-тег robots, поисковые движки должны быть способны добираться до страницы прежде, чем они смогут найти тег.

Серверные логи

Если вам нужно получить более подробную информацию о том, каким образом поисковые движки сканируют ваш веб-сайт и обнаружить проблемы, вы можете посмотреть серверные лог-файлы. Ваши серверные лог-файлы будут записаны, когда страницы будут просканированы поисковыми системами (и другими сканерами), равно как и регистрация посещений сайта. Вы можете затем отфильтровать данные из лог-файлов, чтобы знать точно, как именно бот Google сканирует ваш веб-сайт. Это может дать вам чёткое представление о том, какие файлы просканированы наиболее часто и тщательно, а какие – вовсе не просканированы.

Похоже, что это один из лучших индикаторов, показывающий, что именно препятствует индексации и ранжированию страницы. Вы можете использовать все виды анализа сайта, но, в конечном счёте, если вы можете чётко увидеть из журналов сервера, что страница не сканируется, вы получили ответ на свой вопрос. Затем вы можете приступить к выявлению того места, где может быть проблема, и поработать над её решением.

Мне нравится использовать программу Splunk для анализа серверных логов. Требуется много времени для освоения, но это определённо одна из лучших программ, которые я использовал.

Нижеприведенный рисунок  даёт нам прекрасный пример напрасного расхода бюджета сканирования Google на страницах, которые нас не интересуют:

сканирование google

Индексация

Вы удовлетворены тем, что поисковые движки корректно сканируют ваш веб-сайт. Пора проверить, как ваши страницы на самом деле индексируются, и активно мониторить проблемные позиции.

Самый простой способ убедиться, что Google индексирует страницу правильно, – это проверить кэшированную версию и сравнить её с действующей. Вот три способа, с помощью которых вы можете сделать это быстро.

  1. Запустить поиск Google.
    поиск гугла
  2. Щёлкнуть по результатам поиска Google.
    результат поиска
  3. Воспользоваться закладкой.

Чтобы проверить кэш страницы, на которой я нахожусь, я пользуюсь обычным букмарклетом на Chrome. Создайте новую закладку в своём браузере и сделайте в ней такую добавку:

“javascript:location.href=’http://www.google.com/search?q=cache:’+location.href” (без кавычек)

Красиво и просто!

Задачи проверки кэша страницы:

  • Убедиться, что страница кэшируется регулярно
  • Убедиться, что кэш содержит весь ваш контент

Если здесь всё в порядке, то вы знаете, что определённая страница хорошо просканирована и проиндексирована.

Сегментация карты сайта

Про это  писалось уже неоднократно, так что я не буду здесь повторять всё. Серьёзный анализ проблемы был проделан в посте SEOmoz в отношении карт сайта XML. Короче говоря, идея заключается в создании нескольких xml карт сайта для нескольких частей вашего веб-сайта, так вы сможете мониторить индексацию, используя инструментарий Google Webmaster:

вебмастер гугла

Вышеизложенный материал взят из моего собственного аккаунта и показывает три карты сайта, которые я передал в Google. Хотя приведенные здесь числа недостаточно весомы, вы можете убедиться, что этот подход всё-таки поможет вам обнаружить проблемы.

Статус индексирования

Ещё одно полезное свойство инструментария Google Webmaster – это статус индексирования. Он даёт определённое представление о том, как Google сканирует и индексирует ваш сайт, а также о том, сколько страниц не попало в индекс Google. Вот пример из моего собственного отчёта:

индексирование сайта

Всплеск зелёной линии показывает, когда Google увеличил количество URL, которые он классифицировал как «невыбранные». Это значит, что Google посчитал, что страницы похожи на другие страницы или содержат редирект или низкокачественные. Я внимательно рассмотрел эту проблему и пришёл к выводу, что кривой плагин стал причиной появления множества дублей URL, на которые идёт ссылка.

Если вы постоянно добавляете новые страницы на ваш веб-сайт и видите постепенное увеличение количества проиндексированных страниц, то это, возможно, свидетельствует о том, что они правильно просканированы и проиндексированы. С другой стороны, если вы видите большой скачок (который не ожидался), то это может означать наличие проблем, и поисковые системы не смогут надлежащим образом добраться до вашего веб-сайта.

Ранжирование

Это заключительная часть нашей работы, несколько спорная, что вызывает нашу озабоченность! Является ли ранжирование наших страниц таким, каким оно должно быть? Мы постоянно работаем над тем, чтобы позиции наших страниц повышались, так что я хочу сконцентрироваться на этой теме.

Вначале вам нужно обнаружить, на какие именно страницы вы собираетесь привлечь трафик. Возможно, это будет ваша домашняя страница, категории, продукт и контентные страницы. Существует несколько способов, как вы можете получить ответ на этот вопрос в зависимости от особенностей вашего веб-сайта:

  • Посмотрите на количество URL на вашей карте сайта (это касается обновлённых конкретных карт сайта)
  • Проконсультируйтесь с вашими разработчиками, которые смогут дать вам общее представление
  • Вы можете также просканировать свой веб-сайт, но это, в первую очередь, касается всех доступных страниц

Сразу же, когда вы узнаете искомое число страниц, вам нужно проверить, сколько страниц имеют органичный трафик. Вы можете сделать это, используя программу Google Analytics.

Простой и готовый способ сделать это – перейти к этой схеме.

гугл статистика

Убедитесь, что вы фильтруете лишь в соответствии с органичным поиском, выберите большой диапазон дат (как минимум, шесть месяцев), а затем прокрутите вниз, чтобы увидеть, сколько страниц получили доступ:

количество страниц

Если полученное количество существенно ниже количества страниц, которое у вас есть на самом деле, то вы, возможно, теряете потенциальный трафик.

Если вам требуется более рациональная идея, и вы действительно хотите увидеть, сколько страниц не посещается, вы можете экспортировать список URL из аналитики в CSV, затем сравнить их с имеющимся списком всех страниц. Простая программа VLOOKUP сообщит вам, сколько имеется страниц, не получивших трафика.

Сразу же, когда у вас будет список страниц, не вошедших в трафик, вы имеете возможность более тщательно изучить причину этого. Вы можете сделать это несколькими способами, используя вышеописанный материал:

  • Создайте специализированную карту сайта, в которой есть лишь эти URL, и проверьте, как их индексирует Google
  • Отфильтруйте свои серверные журналы, чтобы включить эти URL и убедитесь, что они просканированы
  • Проверьте кэш, чтобы увидеть, кэшированы ли они

 

About the Author
Nikita Sawinyh

Занимаюсь SEO с 2006 года. Сейчас специализируюсь на продвижении многостраничных проектов. Основатель и руководитель sawinyh.ru

comments powered by Disqus