
Поисковые системы на основе машинного обучения и искусственного интеллекта
Когда произошла последняя великая революция в поиске информации в Интернете? Поразмыслив, наверное, любой, кто знаком с историей Интернета, скажет, что на самом деле это было около двадцати лет назад, когда Google разработал свой новаторский алгоритм. Потом его только совершенствовали и имитировали.
Пришло время совершить новую революцию в методах онлайн-поиска. По мнению многих, он будет основан на машинном обучении. Конечно, Google тоже хотела бы совершить эту революцию, именно поэтому знаменитая компания долгое время работала над алгоритмом. RankBrain, обновление 2015 года которого было разработано для работы с версией поисковой системы под названием Hummingbird. Последний, представленный пять лет назад, улучшил способность Google определять семантический контекст пользовательских запросов, а не только определенные ключевые слова и фразы. Это позволяет понять смысл и истинное намерение вопросов, введенных в поисковик.
RankBrain использует машинное обучение, чтобы стать третьим по значимости сигналом, улучшающим качество результатов поиска. По сути, он предназначен для обработки всех непредсказуемых модификаций запросов, которые могут быть придуманы пользователями. Например, он пытается понять и семантически соединить такие выражения, как «велоремонтная мастерская поблизости», «где ближайший пункт ремонта велосипеда?» и «как я могу быстро отремонтировать свой велосипед?». Все эти вопросы имеют одинаковую основную цель и должны давать одинаковые результаты в идеальной модели поиска.
1997 Страница поисковой системы Google.
Алгоритм работает, тщательно отслеживая семантику запросов и поведение пользователей после получения ответа, обновляя ваше понимание намерений интернет-пользователей на этом пути. Это также помогает в решении многих связанных вопросов. Если пользователь хочет знать, «где находится памятник Костюшко?», а затем «Какой высоты памятник Костюшко?», у алгоритма есть шанс научиться логически связывать их. Кроме того, RankBrain постоянно обновляется и совершенствуется.
На момент запуска, три года назад, RankBrain использовался примерно для 15% поисковых запросов Google. Сегодня он уже используется для всех из них, все время. Впрочем, вряд ли кто-то заметил, что он вообще существует, хотя, конечно, есть много людей, заметивших разницу в функционировании механизма поиска.
Машина — чтобы понять лучше
Что используют поисковые системы искусственный интеллект (ИИ) или системы машинного обучения? В первую очередь для обнаружения шаблонов, которые помогают идентифицировать спам или дублированный, многократно скопированный контент. Это резко снижает потребность в найме людей для выявления такого рода неблагоприятных явлений. По словам SEO-специалистов (), машинное обучение очень помогает Google автоматически удалять сорняки, то есть некачественные страницы из списка результатов поиска.
RankBrain не только упрощает выявление шаблонов в запросах, но также помогает поисковой системе выявлять любые новые сигналы ранжирования, поэтому Google может постоянно улучшать качество результатов поиска. Поскольку поисковые системы могут научиться управлять прогнозами и данными самостоятельно, потребность в ручном труде снижается, и работники могут делать то, что не могут машины, — разрабатывать инновации или проекты, ориентированные на человека.
Веб-пользователи могут искать продукты для покупки, искать информацию или просто искать ресурсы. Одни и те же ключевые слова используются для одной или нескольких целей. Анализируя шаблоны кликов и типы выбранного контента, поисковая система может использовать машинное обучение для определение намерений искателя.
Машинно-человеческое понимание
Согласно исследованию, проведенному в июле 2017 года в Вашингтонском университете, поисковые системы могут действовать по-разному в зависимости от категории запросов или фраз. Исследователи использовали российскую поисковую систему Яндекс для анализа результатов по различным запросам. Мы обнаружили, что типы отображаемых результатов сильно зависят от категории запроса или фразы. Это означает, что ИИ может уделять больше или меньше внимания переменным в одних запросах, чем в других. Поисковик «узнавал» предпочтения конкретного пользователя и, опираясь на прошлые запросы, старался представить наиболее интересную информацию в последующих попытках. Например, если кто-то ввел поисковый запрос «ягуары», а затем хотел найти ближайший зоопарк, введя «зоопарк» в поле запроса, Google сам предложил «зоопарк с ягуарами».
ИИ поисковой системы также становится все лучше и лучше в поиск фоторесурсов. Системы машинного обучения уже могут анализировать образцы цветов и форм и связывать их с любой существующей схемой данных фотографий, чтобы помочь поисковой системе понять, что происходит на изображении. Таким образом, Google научился не только каталогизировать фотографии для результатов поиска, но и представил функцию, которая позволяет пользователям Интернета «искать по фотографии» вместо использования текстового ключевого слова. Таким образом, пользователи могут найти в Интернете другие версии изображения, которое они ищут, а также похожие изображения, которые сами содержат объекты, темы или цвета, а также информацию об видимых объектах.
Мы не понимаем, как это работает, но это работает
По мнению специалистов в области поиска и поисковых систем, циркулирующих в мире, даже они сами до конца не понимают, как они работают нейронные сети. Однако эти механизмы хорошо справляются со своей задачей. Например, если мы поместим в нейросеть достаточно большое количество фотографий утконоса, она сможет научиться его распознавать самостоятельно. Если мы покажем нейросети достаточно вредоносного кода, она может научиться автоматически распознавать вирусы. Если мы дадим ему достаточно необработанных слов или фраз, которые люди вводят в поисковую систему, сеть может научиться понимать запросы на лету и помогать не только отвечать на них, но даже формулировать их точнее.
Однако верно то, что люди теряют контроль над нейронными сетями.
«Но они не теряют все это», — сказал Крис Николсон, основатель Skymind, разработчика машинного обучения в 2016 году, в Wired. «Нейронные сети — это просто математика — линейная алгебра. Инженеры могут успешно отслеживать поведение чисел в этих математических многоуровневых творениях. Проблема в том, что сложно понять, почему нейронная сеть каким-то образом классифицирует картинку, произнесенное слово или кусок естественного языка».
Николсон добавляет, что ИИ может получать очень точные результаты поиска, но не всегда мы, люди, можем объяснить, что привело его к таким точным результатам. Отсюда возникает интересный парадокс. Мы не знаем точно, чем руководствуется ИИ, но он достаточно хорошо понимает наши поисковые намерения и выдает нам то, что мы хотим, с возрастающей точностью. Чтобы немного сократить всю проблему, можно сказать, что в некотором смысле ИИ понимает нас лучше, чем мы сами себя понимаем.

