Принципи індексації сайту в пошукових системах

Коли-небудь замислювалися, як сайти потрапляють в видачу пошукових систем? І як пошуковим системам вдається видавати нам тонни інформації за лічені секунди?

Секрет такої блискавичної роботи - в пошуковому індексі. Його можна порівняти з величезним і ідеально впорядкованим каталогом-архівом всіх веб-сторінок. Попадання в індекс означає, що пошуковик вашу сторінку побачив, оцінив і запам'ятав. А, значить, він може показувати її в результатах пошуку.

Пропоную розібратися в процесі індексації з нуля, щоб розуміти, як сайти потрапляють в видачу Яндекс і Google, чи можна керувати цим процесом і що потрібно знати про індексування ресурсів з різними технологіями.

Що таке сканування та індексація?

Сканування сторінок сайту - це процес, коли пошукова система відправляє свої спеціальні програми (ми знаємо їх як пошукових роботів, краулерів, спайдеров, павуків) для збору даних з нових і змінених сторінок сайтів.

Індексація сторінок сайту - це сканування, зчитування даних і додавання їх в індекс (каталог) пошуковими роботами. Пошуковик використовує отриману інформацію, щоб дізнатися, про що ж ваш сайт і що знаходиться на його сторінках. Після цього він може визначити ключові слова для кожної просканувати сторінки і зберегти їх копії в пошуковому індексі. Для кожної сторінки він зберігає URL і інформацію про контент.

В результаті, коли користувачі вводять пошуковий запит в інтернеті, пошуковик швидко переглядає свій список просканованих сайтів і показує тільки релевантні сторінки у видачі. Як бібліотекар, який шукає потрібні вам книги в каталозі - за алфавітом, тематикою і точному назвою.

Індексація сайтів в різних пошукових системах відрізняється парою важливих нюансів. Давайте розбиратися, в чому ж різниця.

Індексація сайту в Гуглі

Коли ми гугл щось, пошук даних ведеться не по сайтам в режимі реального часу, а за індексом Google, в якому зберігаються сотні мільярдів сторінок. Під час пошуку враховуються різні чинники - ваше місце розташування, мова, тип пристрою і т. Д.

У 2019 Google змінив свій основний принцип індексування сайту - ви напевно чули про запуск Mobile-first. Основна відмінність нового способу в тому, що тепер пошуковик зберігає в індексі мобільну версію сторінок. Раніше в першу чергу враховувалася десктопна версія, а тепер першим на ваш сайт приходить робот Googlebot для смартфонів - особливо, якщо сайт новий. Всі інші сайти поступово переходять на новий спосіб індексування, про що власники дізнаються в Google Search Console.

Ще кілька основних відмінностей індексації в Google:

  • індекс оновлюється постійно;
  • процес індексування сайту займає від кількох хвилин до тижня;
  • неякісні сторінки зазвичай знижуються в рейтингу, але не видаляються з індексу.

В індекс потрапляють всі проскановані сторінки, а ось в видачу за запитом - тільки найякісніші. Перш ніж показати користувачеві якусь веб-сторінку за запитом, пошуковик перевіряє її релевантність по більш ніж 200 критеріями (чинникам ранжирування) і відбирає найбільш підходящі.

Індексація сайту в Яндекс

В Яндексі процес індексування в цілому такий же. Пошукові роботи заходять на сайт, завантажують і обробляють дані, після чого додають їх в індекс для подальшого використання у видачі.

Що ще важливо знати про індексацію в Яндекс:

  • індекс Яндекса оновлюється під час оновлень пошукової бази (приблизно раз в три дні);
  • процес індексування сайту займає від тижня до місяця;
  • Яндекс працює повільніше, ніж Гугл, але при цьому видаляє неякісні сторінки з індексу, відбираючи тільки корисні матеріали.

В видачу Яндекса потрапляють ті сторінки, які максимально відповідають на пошуковий запит, містять зрозумілу і корисну інформацію і зручні у використанні.

Що пошукові роботи роблять на вашому сайті, ми розібралися, а от як вони потрапляють туди? Існує кілька варіантів.

Як пошукові роботи дізнаються про ваш сайт

Якщо це новий ресурс, який до цього не індексувався, потрібно «уявити» його пошуковим системам. Отримавши запрошення від вашого ресурсу, пошукові системи відправлять на сайт своїх краулерів для збору даних.

Ви можете запросити пошукових роботів на сайт, якщо розмістите на нього посилання на сторонньому інтернет-ресурсі. Але врахуйте: щоб пошуковики виявили ваш сайт, вони повинні просканувати сторінку, на якій розміщена ця посилання. Цей спосіб працює для обох пошукових систем.

Також можна скористатися одним з перерахованих нижче варіантів окремо для кожної пошукової системи:

Для Яндекс

  • Створіть файл Sitemap, вкажіть на нього посилання в robots.txt або в розділі «Файли Sitemap Яндекс.Вебмайстер».
  • Додайте свій сайт в Яндекс.Вебмастер.
  • Встановіть лічильник Яндекс.Метрики на свій сайт.

Для Google

  • Створіть файл Sitemap, додайте на нього посилання в robots.txt і відправте файл Sitemap в Google.
  • Надішліть запит на індексацію сторінки зі змінами в Search Console.

Кожен сеошник мріє, щоб його сайт швидше проиндексировали, охопивши якомога більше сторінок. Але вплинути на це не в силах ніхто, навіть найкращий друг, який працює в Google.

Швидкість сканування та індексації залежить від багатьох факторів, включаючи кількість сторінок на сайті, швидкість роботи самого сайту, налаштування в веб-майстра і краулінговий бюджет. Якщо коротко, краулінговий бюджет - це кількість URL вашого сайту, які пошуковий робот хоче і може просканувати.

На що ж ми все-таки можемо вплинути в процесі індексації? На план обходу пошуковими роботами нашого сайту.

Як управляти пошуковим роботом

Пошукова система викачує інформацію з сайту, враховуючи robots.txt і sitemap. І саме там ви можете порекомендувати пошуковику, що і як завантажувати або не викачувати на вашому сайті.

Файл robots.txt

Це звичайний текстовий файл, в якому зазначені основні відомості - наприклад, до яких пошуковим роботам ми звертаємося (User-agent) і що забороняємо сканувати (Disallow).

Вказівки в robots.txt допомагають пошуковим роботам зорієнтуватися і не витрачати свої ресурси на сканування маловажних сторінок (наприклад, системних файлів, сторінок авторизації, вмісту кошика і т. Д.). Наприклад, рядок Disallow: / admin заборонить пошуковим роботам переглядати сторінки, URL яких починається зі слова admin, а Disallow: / *. Pdf $ закриє їм доступ до PDF-файлів на сайті.

Також в robots.txt варто обов'язково вказати адресу карти сайту, щоб вказати пошуковим роботам її місце розташування.

Щоб перевірити коректність robots.txt, завантажте його в спеціальну форму на сторінці Яндекс.Вебмайстер або скористайтеся окремим інструментом в Google Search Console.

Файл Sitemap

Ще один файл, який допоможе вам оптимізувати процес сканування сайту пошуковими роботами - це карта сайту (Sitemap). У ній вказують, як організований контент на сайті, які сторінки підлягають індексації та як часто інформація на них оновлюється.

Якщо на вашому сайті кілька сторінок, пошукова система напевно виявить їх сам. Але коли у сайту мільйони сторінок, йому доводиться вибирати, які з них сканувати і як часто. І тоді карта сайту допомагає в їх пріоритетності серед інших інших чинників.

Також сайти, для яких дуже важливий мультимедійний або новинний контент, можуть поліпшити процес індексації завдяки створенню окремих карт сайту для кожного типу контенту. Окремі карти для відео також можуть повідомити пошуковим системам про тривалість відеоряду, тип файлу і умови ліцензування. Карти для зображень - що зображено, який тип файлу і т. Д. Для новин - дату публікації. назва статті та видання.

Щоб жодна важлива сторінка вашого сайту не залишилася без уваги пошукового робота, в гру вступають навігація в меню, «хлібні крихти», внутрішня перелінковка. Але якщо у вас є сторінка, на яку не ведуть ні зовнішні, ні внутрішні посилання, то виявити її допоможе саме карта сайту.

А ще в Sitemap можна вказати:

частоту оновлення конкретної сторінки - тегом <changefreq>;
канонічну версію сторінки - атрибутом rel = canonical;
версії сторінок на інших мовах - атрибутом hreflang.
Карта сайта також здорово допомагає розібратися, чому виникають складнощі при індексації вашого сайту. Наприклад, якщо сайт дуже великий, то там створюється багато карт сайту з розбивкою за категоріями або типам сторінок. І тоді в консолі легше зрозуміти, які саме сторінки не індексуються і далі розбиратися вже з ними.

Перевірити вірність файлу Sitemap можна на сторінці Яндекс.Вебмайстер, а також в Google Search Console вашого сайту в розділі «Файли Sitemap».

Отже, ваш сайт відправлений на індексацію, robots.txt і sitemap перевірені, пора дізнатися, як пройшло індексування сайту і що пошукова система знайшла на ресурсі.

Як перевірити індексацію сайту

Перевірка індексації сайту здійснюється декількома способами:

1. Через оператор site: в Google і Яндекс. Цей оператор не дає вичерпний список сторінок, але дасть загальне розуміння про те, які сторінки в індексі. Видає результати по основного домену та піддоменів.

2. Через Google Search Console і Яндекс.Вебмайстер. В консолі вашого сайту є детальна інформація по всіх сторінках - які з них проіндексовані, які ні і чому.

У Яндекса в вебмайстрів теж є інформація по доданим сторінок в індекс і виключеним і з яких причин - в розділі «Індексування ⇒ Сторінки в пошуку».

3. Скористатися плагінами для браузера типу RDS Bar або спеціальними інструментами для перевірки індексації. Наприклад, дізнатися, які сторінки вашого сайту потрапили в індекс пошукача можна в інструменті «Перевірка індексації» SE Ranking.

Для цього достатньо ввести потрібну вам пошукову систему (Google, Яндекс, Yahoo, Bing), додати список урлов сайту і почати перевірку. Щоб протестувати роботу інструменту «Перевірка індексації», зареєструйтеся на платформі SE Ranking і відкрийте тул в розділі «Інструменти».

Джерело: seranking.ru
Підпишіться на новини

Ми зв'яжемося з вами, у зручний для вас час і продемонструємо всі можливості магазину. Дамо відповіді на всі ваші запитання стосовно розробки вашого інтернет-магазину.