logo

Блог Алeксандра Сергиенко

Я занимаюсь заработком в Интернете.
Читая мой блог, Вы узнаете насколько это реально.
Я выбрал свой путь. Вы со мной?
 

Как работают поисковые системы? Сниппет и индексация страниц

Как работают поисковые системы

Приветствую всех читателей блога int-net-partner.ru. А вы никогда не задумывались о том, "Как работают поисковые системы?", «Что такое сниппет?», интересно? Тогда читайте статью до конца!

Я решил написать полезную всем статью как начинающим, так и «бывалым» пользователям Интернета, блоггерам. Как многие уже знают, что основная доля трафика идёт с Яндекса и Гугла, и следовательно, чтобы этот трафик шёл к нам, нужно подружиться с ними, узнать «чем они дышат» :).

Что такое сниппет?

Так что же такое сниппет для сайта и почему для оптимизатора его содержимое очень важно?



style="display:block"
data-ad-client="ca-pub-8243622403449707"
data-ad-slot="1319308473"
data-ad-format="auto">

Сниппет — это описание статьи, которое находится под ссылкой на найденный документ.

Сниппет

Если текст из ссылки на статью берётся из мета -тега Title, то сниппет формируется автоматически из статьи ( берутся куски, отдельные фразы), в зависимости от поискового запроса. Какие фрагменты статьи брать — решает поисковик, специально разработанный алгоритм.  Интересно ещё и то, что при разных поисковых запросах сниппеты будут разные!

Из вышесказанного можно сделать вывод, что сниппет нужен для того, чтобы можно было понять какую информацию несёт страница статьи в зависимости от поиска, не переходя на неё.

Также содержимое тега Description иногда может быть использовано в качестве сниппета. Это может произойти, если слова в поисковом запросе совпадут с ключевыми словами в дискрипшене.

Для того, чтобы заполнить содержимое тега Description, Title,  используйте плагин All in One SEO Pack, как с ним работать я писал здесь.

Основные принципы работы поисковиков

Цель оптимизации — поднять статью в топ выдачи поисковых систем, т.е. сделать страницу релевантной данному поисковому запросу.

Это и есть работа оптимизаторов. Пока алгоритмы поисковых систем не совершенны, оптимизаторы будут «помогать» поисковикам поднять страницу в топ. Но зачастую такая «помощь» мешает алгоритму сделать выдачу, релевантную данному запросу.

Вот оптимизаторы и стараются улучшить релевантность страниц, путём внутренней и внешней оптимизации, чтобы их продвигаемый запрос вышел в топ Яндекса и Google.

Но прежде чем оптимизировать те или иные страницы сайта по нужный нам запрос, необходимо знать как работают поисковики, чтобы в дальнейшем знать их поведение от того или иного изменения.

Конечно, весь принцип работы поисковиков мы разобрать не сможем, так как многая информация не доступна обычному оптимизатору и не подлежит разглашению, но основные принципы мы разберем.

Итак, приступим. В чём же всё — таки заключается принцип работы поисковых систем? Принцип работы у всех поисковых систем одинаковый: собирается информация со всевозможных страниц, особым образом обрабатывается, чтобы можно было удобно вести поиск. Ну, это если совсем в общих чертах.

Давайте внесём такой термин как документ.

Документ — это страница сайта. При этом документ должен иметь свой url (уникальный адрес), также хеш — ссылки не приводят к появлению нового документа.

А теперь остановимся на способах (алгоритмах) поиска информации в собранной поисковиками базе страниц сайтов (документов).

Способы прямых и обратных индексов

Метод прямого индекса (поиска) — это метод простого перебора страниц, которые хранятся в базе. Этим методом можно найти информацию наверняка, все мелкие детали, ничего не пропустив. Но оптимальным его нельзя назвать, так как он не предназначен для поиска информации с большим объёмом данных, потому что поиск займёт слишком длительное время.

Поэтому для работы с большим объёмом данных был разработан способ инвертированных (обратных) индексов. Также следует добавить, что этот способ используют все крупные поисковые системы в мире.

При использовании способа обратных индексов документы преобразовываются в текстовые файлы, которые содержат список всех слов, имеющихся в документе.

Слова в этих файлах располагаются по алфавиту, рядом с ними в виде координат указаны места расположения их на странице. Кроме этого имеются и другие параметры, которые определяют значение этих слов.

Всё это расположение немного напоминает список терминов в технической литературе, который расположен на последней странице. Там написан термин и указана страница, где его можно найти. Всех слов этот список не включает, но как пример, я думаю понятен. Вот так строятся индекс-файлы с помощью инвертированных индексов.

Поисковики ищут информацию не в прямых индексах (они нужны для составления сниппетов), а в обратных индексах, обработанных ими документов (вебстраниц), об этом мы с вами говорили в начале статьи.

На данный момент алготритм обратных индексов используется всеми поисковыми системами, так как позволяет ускорить процесс поиска информации, в отличие от алгоритма прямых индексов. Следует заметить, что при преобразовании документа в индекс-файл, неизбежны потери информации, за счёт искажений при преобразовании.

Модель ранжирования

Поиск по обратным индексам осуществляется при помощи математической модели ранжирования, которая упрощает процесс обнаружения нужных вебстраниц (по введённому запросу) и упрощает определение релевантности всех  документов, найденных по этому запросу. Соответственно чем больше найденный документ соответствует определённому запросу, тем он релевантнее, а следовательно, выше должен стоять в поисковой выдаче.

Задача математической модели ранжирования заключается в поиске страниц в своей базе обратных индексов, которые соответствуют определённому запросу, затем сортировка их по релевантности данному запросу в порядке убывания.

Простая логическая модель ранжирования (поиск по фразе) нам не подойдёт, так как в Интернете огромное количество вебстраниц, имеющих какую-либо фразу и выдаваемых на рассмотрение пользователю.

Следует заметить, что математическая модель не идеальна в плане сортировки страниц по определённому запросу (по релевантности) и этим неплохо пользуются оптимизаторы, оказывая влияние на ранжирование документов  в поисковой выдаче.

Математическая модель ранжирования относится к классу векторных моделей, где используется такое понятие как вес документа относительно заданного пользователем запроса.

Для расчёта веса документа по заданному запросу в базовой векторной математической модели ранжирования используются 2 параметра: частота, с которой в документе встречается данное слово (TF — term frequency) и  то, насколько редко встречается данное слово во всех страницах, известных поисковой системе (IDF — inverse document frequency).

А умножив эти параметры друг на друга, получим вес документа (вебстраницы) по данному поисковому запросу.

Конечно, кроме этих двух параметров TF и IDF поисковики используют ещё множество коэффициентов, но суть остаётся прежней: чем чаще слово из поиска встречается на странице и чем реже на всех остальных проиндексированных вебстраницах поисковиком, тем вес её будет больше. Но здесь следует заметить, что слишком частое количество повторений поискового слова в документе может быть расцениваться спамом.

Асессоры. Оценка качества работы формулы

Как вы уже поняли, что формирование поисковой выдачи по тем или иным запросам производится по формуле. Но над формулой должен производиться контроль как и над самой математической моделью ранжирования.

Вот  именно для контроля математической модели ранжирования и существуют люди — асессоры, которые просматривают поисковую выдачу определённой поисковой системы (которая их наняла) и оценивают качество работы формулы.

Асессоры вносят замечания, а люди, которые отвечают за за настройку математической модели ранжирования уже, в свою очередь, редактируют формулу, в результате чего поисковик работает более качественно.

А вот видео, из которого вы можете подробнее узнать об асессорах Яндекса:

Основные критерии оценки работы формулы:

  1. Точность выдачи поисковой системы — процент документов, соответствующих запросу (релевантных). Т.е. чем меньше страниц, не соответствующих запросу присутствует — тем лучше.
  2. Полнота выдачи поисковой системы — это отношение релевантных вебстраниц по данному запросу к общему количеству релевантных документов, находящихся в коллекции (совокупности страниц, находящихся в поисковой системе). Например, если во всей коллекции релевантных страниц больше, чем в поисковой выдаче, то это означает неполноту выдачи. Это произошло из-за того, что некоторая часть релевантных вебстраниц попала под фильтр.
  3. Актуальность выдачи поисковой системы — это соответствие вебстраницы тому, что написано в сниппете. Например, документ может сильно отличаться или вовсе не существовать, но в выдаче присутствовать. Актуальность выдачи напрямую зависит от того, как часто сканирует поисковый робот документы из своей коллекции.

Сбор коллекции (индексация страниц сайта) осуществляется специальной программой — поисковым роботом. Поисковый робот получает список адресов для индексации, копирует их, далее содержимое скопированных вебстраниц отдаёт на обработку алгоритму, который преобразует их в обратные индексы.

Поисковый робот, также может переходить по ссылкам с вебстраниц, которые находятся в списке индексации и индексировать их. Таким образом можно сделать вывод, что робот ведёт себя как обычный пользователь.

Сколько страниц может проиндексировать Яндекс?

Яндекс, как никто другой, заинтересован, чтобы пользователь получал разнообразную информацию. Но Яндекс допускает в выдаче второго документа с того же Интернет — ресурса. Это является исключением из правил, но если страница уж очень «хороша» или по-другому релевантна, то и исключение можно сделать. Поэтому возможен случай, когда две страницы одного и того же сайта попадут в топ по определённому поисковому запросу. Вот так.

Яндекс старается индексировать равномерно все сайты, но как быть, если нужно проиндексировать не одну, а сто, тысячу, или несколько десятков тысяч страниц?

Для этого Яндекс поставил ограничение на количество документов, которое может быть проиндексировано с одного сайта.

Так для доменов второго уровня, например, int-net-partner.ru, максимальное число страниц, которое Яндекс может проиндексировать находится в диапозоне от 100 до 150 тысяч (в зависимости от отношения к данному домену).

Для доменов третьего уровня от 10 до 30 тысяч вебстраниц.

А что делать, если вам нужно будет проиндексировать, например, 500000 страниц? Я думаю, единственным выходом будет создание множества поддоменов.

Поддомены для домена второго уровня выглядят так: seo.int-net-partner.ru. Их количество, которое может проиндексировать Яндекс находится в диапозоне от 200 до 1000. Поэтому этим способом можно загнать несколько миллионов страниц сайта.

Отношение Яндекса к сайтам, не находящемся в зоне RU,SU, UA

В первую очередь, если вы только создали домен, Яндекс индексирует русскоязычные домены, это домены в зонах ru, su, ua. Все остальные домены индексируются не ранее чем через месяц.

Доменная зона только влияет на время, которое потребуется, до начала первой индексации страницы. На частоту индексации доменная зона влияния не оказывает.

Вот приблизительно как работает поисковая система в плане частоты индексации:

  1. Робот находит страницу, индексирует её, заходит на неё на следующий день.
  2. Робот сравнивает её с тем, что было вчера и если не находит отличий, то зайдёт на неё через три дня.
  3. И если на этот раз изменений в странице робот не найдёт, то зайдёт на неё через неделю и т.д.

Ну вот и всё, что я хотел вам рассказать (итак много получилось), теперь вы знаете как работают поисковые системы.

P.S. 

Как вам статья? Рекомендую получать свежие статьи блога на e-mail, чтобы не пропустить много новой интересной информации!

С уважением, Александр Сергиенко


Видеостудия своими руками

Как создать блог в интернете бесплатно?

Обработка голоса для инфобизнесмена
Читай этот блог и ты узнаешь много полезного! Читай и ты!
Поделитесь с друзьями:
Комментарии пользователей ( 24)
  1. Артём Черкасов
    в 21:28

    Вооот, крутая статейка!

    Ответить
  2. Мария
    в 14:27

    Ну очень крутая статья. Все подробно написано, школа Александра Борисова. Я так утрирую, я вообще не люблю писать большие статьи. Кому в общем как, предлагаю дружить блогами.

    Ответить
    • Александр Сергиенко
      в 14:37

      Просто «находит» иногда=).

      Ответить
  3. Виталий Калинин
    в 02:30

    Спасибо за пост. Много интересного почерпнул. Не думал, что всё настолько серьёзно

    Ответить
  4. Vlad
    в 02:44

    Здравствуйте!

    Отличная статья, объемная=)

    Хотя, сейчас такое время что хр*н поймешь что этому Яндексу нужно...

    Ответить
  5. Сергей
    в 15:38

    все подробно описано то что нужно!

    Ответить
  6. Николай
    в 14:22

    В последнее время Яндекс стал плохо индексировать мои новые статьи, а пару недель назад он индексировал через 2-3 часа. В чем дело, вы не знаете? Статьи мои, как обычно, уникальные.

    Ответить
    • Александр Сергиенко
      в 14:36

      А Вы кроме размещения на сайте делаете постинг в соц. сети, сообщаете о выходе новой статьи в вебмастере?

      Ответить
  7. Ольга
    в 20:51

    Получается, что статьи с доменом .com вообще должны индексироваться самыми первыми? Статья очень подробная, многое я вообще в первый раз слышу.

    Ответить
    • Александр Сергиенко
      в 12:44

      Наоборот русскоязычные домены в первую очередь индексируются Яндексом, остальные не ранее, чем через месяц.

      Ответить
      • Ольга
        в 13:05

        А тогда Гуглом .com должен быстрее проиндексироваться?

        Ответить
        • Александр Сергиенко
          в 13:25

          Вообще Гугл на порядок быстрее Яндекса индексирует. Точно сказать не могу, какие зоны Гугл лучше индексирует.

          Ответить
          • Ольга
            в 00:11

            У меня как-то странно эта индексация происходит. То три дня не вижу свою новую статью в поиске, то не успею опубликовать, а уже вижу, люди из поисковиков ко мне заходят на нее :)

            Ответить
          • Александр Сергиенко
            в 09:39

            У меня, честно говоря, такая же история происходит, видимо алгоритмы изменяются, тестируются.

            Ответить
  8. Валентина
    в 19:44

    Александр, очень понравилась твоя статья, она такая нужная для меня, ведь я так многого не знала. Буду изучать ее, это как раз мне подходит. И видео тоже очень хорошее, автор так просто и доступно рассказал все. Вот только диву даешься, как эти роботы работают, будто люди, надо же.

    Ответить
  9. Денис
    в 15:07

    Константин Каширин.

    Если сам — молотог!

    Ответить
  10. Денис
    в 14:43

    уж не по курсам Каширина написано? :) Знакомая подача информации.

    Ответить
    • Александр Сергиенко
      в 14:46

      Честно говоря, даже не знаю кто это.

      Ответить
  11. Аянбек
    в 23:45

    Полезная однако для меня статья. Мое доменное имя находится в не зоны РУ. И я думал что этот фактор будет влиять на продвижение моего блога а оказывается нет. И видео очень такое классное.

    Ответить
  12. Макс
    в 12:03

    =) стараюсь не редактировать ничего, а то из рейтинга вылетает через пару дней

    Ответить
    • Александр Сергиенко
      в 16:24

      Если глобально ничего не менять — редактировать можно, ссылочку, например, вставить.

      Ответить
      • Макс
        в 10:40

        с яндексом чуть по сложнее у меня, отпускается страничка ниже рейтинга все что не редактирую, даже уже привык =) гугл допустим видит все. и не меняет ничего. 8)

        Ответить
  13. Таисия
    в 17:58

    Очень познавательная статья и видео. Но все равно, все так сложно! Это у кого есть образование программирования, им гораздо легче во всей этой кухне разобраться. Ну что ж, будем осиливать и эти премудрости...

    Ответить
    • Александр Сергиенко
      в 10:39

      Вначале всегда тяжело, потом будет намного проще.

      Ответить
Ваше Имя
E-mail (не публикуется на сайте)     Поле обязательно для заполнения
Адрес вашего сайта (если есть)
Текст комментария
Статистика сайта блога Александра Сергиенко