«Палех» — поисковый алгоритм от Яндекс с задатками собственного мозга

palex-poiskovyj-algoritm-ot-yandeksДень добрый, Друзья. Поисковые системы не перестают удивлять. Обязательно придумают что-то новенькое. Вот и Яндекс сварганил новый поисковый алгоритм. «Палех» его зовут. Вот что говорят яндексоводы о своем новом детище:

Мы запустили новый поисковый алгоритм — «Палех». Он позволяет поиску Яндекса точнее понимать, о чём его спрашивают люди. Благодаря «Палеху» поиск лучше находит веб-страницы, которые соответствуют запросам не только по ключевым словам, но и по смыслу. За сопоставление смысла запросов и документов отвечает поисковая модель на основе нейронных сетей.

Смысл запуска нового поискового алгортма сводится к тому, что теперь поисковые зверюшки (машинами, поисковыми роботами как-то язык не поворачивается уже назвать) учатся определять не только картинки, мелодии и тексты по закрепленным за ними фразами, но и благодаря созданным нейронным сетям даже смысловую нагрузку самих картинок и текста.

Иными словами, если на изображении нарисована собака, а заголовок обозначает что-то «левое», то нейроны поисковой системы быстренько распознают подвох и по запросу пользователя «собака» сети без ошибки преподнесут картинку с собакой. Вот такая она — птица «Палех» .

В ходе обучения ей показывают огромное количество картинок, где есть нужные объекты (положительные примеры) и где их нет (отрицательные примеры). В результате нейросеть получает способность верно определять нужные объекты на любых изображениях.

Это что? Такая работа основана на накопленном поисковиком статистике запросов. Оказывается, что это сложно, но можно. Как уверят яндексоводы, гораздо сложнее было научить поисковую…собаку определять заложенный в текст смысл.

Поисковикам проще работать с цисловыми значениями. На то они и машины. Но умельцы Яндекс соообразили и научили нейронную сеть поисковой системы переводить огромное количество заголовков публикаций в цифры. Только не 0 или 1, а гораздо сложнее и точнее. В группы из 300 (!) чисел каждая. Тут уже задействованна трехсотмерная система координат.

Вообразить такую систему координат человеку довольно трудно. Давайте упростим задачу и представим, что каждой веб-странице соответствует группа не из трёхсот, а из двух чисел — и мы имеем дело не с трёхсотмерным, а всего лишь с двумерным пространством. Тогда получится, что каждое число — это определённая координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости.

Точно так же в набор чисел можно перевести и текст поискового запроса. Другими словами, мы можем разместить запрос в том же пространстве координат, что и веб-страницу. Замечательное свойство такого представления состоит в том, что чем ближе они будут расположены друг к другу, тем лучше страница отвечает на запрос.

«Палех», или будущее за длинным хвостом поискового запроса

Вот здесь то теперь и пригодится длинный хвост поискового запроса. Несмотря на то, длиннохвостые запросы несут в себе сложность в обработке поисковой собакой, задействованные нейронные сети цифрового мозга «Палех» неплохо справляются с выдачей релевантного ответа под запрос с длинным хвостом.

Несмотря на то, что каждый из запросов «длинного хвоста» по отдельности встречается крайне редко, мы всё равно хотим находить по ним хорошие результаты. К решению этой задачи мы привлекли нейронные сети.

Насколько удобной будет такая система для простого пользователя и вебмастера — покажет время, но задумка у Яндекса довольно интересная.

Далёкая, но чрезвычайно интересная цель состоит в том, чтобы получить на основе нейронных сетей модели, способные «понимать» семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека.

Новость о новом поисковом алгоритме птице «Палех» вы можете прочитать на Блоге Яндекс

Успехов, Друзья. С уважением, Олег

 

Комментарии 2

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *