Руйнуємо головні міфи про новий алгоритм Google BERT 2020 року

Новий алгоритм Google BERT привернув інтерес і змусив багатьох пошукових оптимізаторів змінити підхід у створенні контенту для сторінок. Імплементація нового алгоритму в пошукову систему вважається оновленням року.

На ринку поширюються різні SEO міфи про BERT.Напрімер:

  • BERT застосовується тільки для аналізу пошукових запитів, і не застосовується для аналізу контенту на сторінці;
  • Алгоритм практично ніяк не впливає результати пошукової видачі.

А ще Yandex почав використовувати алгоритм BERT. Навіщо? Для яких цілей?

Отже, є такі питання:

  • Чи застосовується BERT для аналізу текстів на сайтах?
  • Чому в пошуковій видачі Google не були помічені значущі флуктуації? Чи є пояснення?
  • BERT в Yandex.

Розберемося з усіма питаннями далі.

Міф 1: Чи використовується BERT для аналізу тексту на сайтах?

Багато пошукових оптимізаторів досі вважають, що Google BERT застосовується лише для аналізу ІНТЕНТ пошукових запитів. Як приклад, коментар під статтею:

Ряд колег підтримали даний коментар. Деякі зовсім писали, що все це маячня. :) Дякую за критику.

Так, дійсно в анонсі чорним по білому написано, що алгоритм застосовується для аналізу пошукових запитів. Наводяться приклади. І не написано, що BERT застосовується ще й для аналізу контенту на сайтах.

Ще є таке розхожа думка, що BERT створений для поліпшення пошукової видачі по голосовому пошуку.

Але відсутність інформації є недостатнім, щоб робити твердження про те, що BERT не застосовується до контенту.

Мені логіка осіб приймають рішення в Google зрозуміла. Проте, аргументи наводити не буду. Є простіший спосіб зруйнувати даний міф. Кілька років тому проводився світовий конкурс по SEO, за результатами якого я зайняв друге місце. Обов'язковою умовою було дотримання правил Google, інакше учасник виключався. В результаті у мене залишилися контакти в Google. Я уточнив інформацію по даній темі безпосередньо.

Yes, for both understanding queries, and for understanding the content.

Зафіксуємо: Google використовує новий алгоритм для аналізу контенту на сторінках.

Далі розберемося з флуктуаціями в пошуковій видачі.

Міф 2: Алгоритм практично ніяк не впливає на результати пошукової видачі

Раніше все текстові алгоритми були націлені на аналіз ключових фраз. Головна мета нового алгоритму полягає в вирішенні задачі по розумінню контексту.

Моделі BERT можуть аналізувати не тільки окремі слова, а й розуміти контекст, в якому слова вживаються.

В результаті технологія здатна значимо поліпшити результати пошукової видачі. У пошуковій системі так характеризують новий алгоритм:

Найбільший прорив і один з найбільш грандіозних успіхів за всю історію Google Пошуку.

Причина 1. Витрати на ресурси. Моделі Google настільки складні, що для обробки необхідних даних довелося вперше застосовувати тензорні процесори (TPU), створені спеціально для машинного навчання нейронних мереж. BERT заточена під тензорні процесори Google, тому з коробки вміє працювати тільки з однією відеокартою.

Причина 2. Поганий претренінг російською та іншими мовами. На GitHub доступний вихідний код на TensorFlow і навіть предобученная універсальна модель BERT на 102 мови. Фахівці Yandex випробували дану модель. Виявилося, що універсальна модель на російських текстах показувала істотно менше якість, ніж англійська модель, що б'є рекорди на англійських текстах (що, погодьтеся, логічно). На російських текстах вона програвала внутрішнім моделям Yandex на DSSM. За даними Yandex на перенавчання потрібен був би рік.

Отже, BERT практично не впливає на результати пошукової видачі російською, українських та інших мовах зважаючи на технічні та економічних причин. У перспективі ситуація зміниться, а значить пошуковому оптимізатору слід бути підготовленим. У західному сегменті ситуація інша.

Для яких цілей BERT почав застосовуватися в Yandex?

BERT в Yandex. Навіщо Yandex почав використовувати BERT?

Так. Yandex почав використовувати BERT. Чи не для ранжирування. Алгоритм використовується для вирішення таких завдань:

  • Пошуку помилок в новинах, а саме для пошуку помилок в заголовках новин.
  • Пошук застарілих заголовків.

Навіщо шукати помилки в заголовках? Щоб виключити новини з помилками в заголовках з топа.

Коментарі експертів на тему алгоритму BERT

Джейкоб Узкорейт, керівник берлінської команди Google AI Brain:

На відміну від інших минулих претренінг мовних моделей, створених за допомогою обробки нейросетями терабайтов тексту, що читається зліва направо, модель BERT читає і справа наліво, і одночасно зліва направо, і навчається пророкувати, які слова випадковим чином були виключені з пропозицій. Наприклад, BERT може прийняти на вхід пропозицію виду «Джордж буш [...] в Коннектикуті в 1946 році», і передбачити, яке саме слово приховано в середині речення (в даному випадку, «народився»), обробивши текст в обох напрямках. «Ця двунаправленность змушує нейросеть витягти якомога більше інформації з будь-якої підмножини слів.

John Mueller, Webmaster Trends Analyst з Google:

I would primarily recommend taking a look at the blog post that we did around this particular change.

In particular, what we’re trying to do with these changes is to better understand text.

And on the other hand better understanding the text on a page.

The queries are not really something that you can influence that much as an SEO.

The text on the page is something that you can influence. Our recommendation there is essentially to write naturally.

What special attributes do we need to watch out for and that would allow use to better match the query that someone is asking us with your specific page.

So, if anything, there’s anything that you can do to kind of optimize for BERT, it’s essentially to make sure that your pages have natural text on them and that they’re not written in a way that.

Kind of like a normal human would be able to understand. So instead of stuffing keywords as much as possible, kind of write naturally.

Що буде змінюватися в перспективі?

Раніше якщо по високочастотним ключовими фразами конкуренція була високою і для просування були потрібні великі інвестиції, то був альтернативний дешевий спосіб розкрутки сторінок по низькочастотних ключових фразах. Подібні ключові фрази просувалися в ТОП за рахунок таких чинників:

Технічна оптимізація просуваються сторінок сайту;
Пошукова оптимізація тексту на сторінках.
На таких сайтах сумарний обсяг трафіку по низькочастотних ключових фразах більше за обсяг трафіку за всіма іншими ключовими фразами. BERT аналізує не тільки текст пошукових запитів, але і текст на сторінок сайту. Значить даний спосіб більше ефективним не буде. Проте, даний спосіб працює і зараз, так як універсальна модель BERT не пройшла хороший претренінг на текстах російською мовою. Але тренд вказує, що ситуація буде змінюватися в перспективі.

У міру поліпшення подібних пошукових алгоритмів, трафік з пошукової видачі буде перетікати від дрібних сайтів, заточених по низькочастотні ключові фрази, до великих авторитетним сайтам.

Що робити на сайті зараз?

Якщо є сітки сайтів під залучення трафіку по низькочастотних запитах, то слід створювати ще й альтернативні сайти зі зменшеним об'ємом сторінок.

На головних сайтах слід адаптувати формат текстів під текст для людей і розширити семантичні ядра сторінок. Як? Наприклад так:

  • Розширити сторінки текстом, з входженням додаткових релевантних ключових фраз з пошукової видимості;
  • Аналізувати пошукові запити, за якими був притягнутий трафік на сайт і додавати релевантні фрази в контент;
  • Додавати в контент релевантні фрази з пошукових підказок Google, Bing і Yandex. В даному джерелі з'являються низькочастотні фрази, яких немає в інших системах;
  • Аналізувати логи внутрішнього пошуку і додавати в контент знайдені релевантні ключові фрази.
  • Як вивантажувати ключові фрази сайтів з пошукової видимості? Найпростіший спосіб полягає в вивантаженні даних з бази MegaIndex.

Робот регулярно сканує пошукову видачу, збирає та оновлює список ключових фраз, за ​​якими ранжуються сайти.

Посилання на сервіс - Пошук ключових фраз на основі даних про пошукової видимості.

Приклад звіту далі:

Висновки

У BERT така архітектура нейромережі, яка дозволяє враховувати весь контекст відразу, включаючи інший кінець пропозиції і причетний оборот десь в середині. І в цьому її відмінність від попередніх модних архітектур, які враховували контекст. Наприклад, у нейромережі LSTM довжина контексту - в кращому випадку десятки слів, а тут все 200.

Інтеграція технології BERT з пошуковою системою Google проведена. BERT застосовується до аналізу пошукових запитів, і до аналізу контенту на сторінках сайту. Якість поліпшень пошукової видачі залежить від мови. Слід оптимізувати тексти на сторінках сайтах. Як? Використовувати природна мова в текстах. Розширювати семантичні ядра сторінок сайту за рахунок додавання релевантних ключових фраз і фрагментів тексту. Ще має сенс починати роботу з альтернативними джерелами трафіку, такими наприклад як YouTube.

Yandex застосовує BERT для пошуку проблемних заголовків. Слід враховувати дане нововведення при роботі з новинним трафіком в рунеті.

Джерело: https://ru.megaindex.com/
Підпишіться на новини

Ми зв'яжемося з вами, у зручний для вас час і продемонструємо всі можливості магазину. Дамо відповіді на всі ваші запитання стосовно розробки вашого інтернет-магазину.