
поисковые системы
Содержание
В этой статье представлена история поисковых систем. Стоит прочитать и узнать, как они действовали в 1945 году и как работают сегодня.
1945 Проект Мемекс (1), рассматриваемая многими исследователями как первая концепция, была разработана американским инженером Ванневаром Бушем. Его создатель является предшественником идеи компьютерных сетей и создателем машины, используемой для поиска и хранения связанной друг с другом информации с помощью гипертекста.
Устройство с именем Memex он был построен из двух экранов и ресурса микрофильмов, который позволял отображать связанные документы. Таким образом можно было быстро вводить и искать соответствующую информацию, документы и статьи. По замыслу автора машина имела найти интересные ключевые слова на основе. В конечном итоге проект не был реализован. Тем не менее, работа Vannevara Busha другие ученые, такие как Дуглас Энгельбарт, Тед нельсон или Джозеф Ликлайдер.
1978 Początki система ББС (система электронных досок объявлений), которая позволяет отправлять электронные письма, а также загружать и скачивать контент с сервера. BBS были оснащены поисковыми системами для файлов и другими системами BBS. Со временем они стали сливаться, создание собственных сетей. И самым известным из них был сеть Фидонет. Господство систем BBS продолжалось до 90-х годов.
1979 Они возникают первые коммерческие компьютерные сети Такие как Америка онлайн Lub одаренный человек. Платные пользователи сделали возможным обмен информацией, поиск данных, файлов и других текстовых документов. Именно тогда они начали появляться первые базы данных, содержащие информацию о серверах и размещенном на них контенте.
1990 Создано в Университете Макгилла в Монреале. поисковый движок, адаптированный к сервису Ftp, по имени Арчи (2). Создан Алана Имущество, Билла Хилана i Петера Дж. Дойча, Арчи служил поисковой системой для данных на FTP-серверах. Механизм извлекал списки файлов с серверов один раз в месяц, а полученная таким образом информация искалась с помощью Unix-команды grep. Со временем к механизму были добавлены расширенные методы поиска.
1991 Gopher создан в Университете Миннесоты, прародителе современных поисковых систем. Механизм Gopher в текстовом режиме позволял искать данные с использованием иерархического дерева, которое представляло собой каталог серверов и документов (3). Поиск системных ресурсов было возможно с использованием двух других систем: поисковик Вероника и упрощенный КувшинГеада.
1993 Мэтью Грей создает первую поисковую систему, работающую с гипертекстовыми ссылками HTML., по имени Вандекс. На практике поисковик находил интересующие пользователей сайты по ссылкам. Это стало возможным благодаря созданию первого индексирующий робот — WWW туристыкоторый был создан Греем годом ранее. Концепция его работы позже была разработана такими компаниями, как Google, Bing и Yahoo. Он мог, в частности, индексировать URL-адреса веб-сайтов, становясь базой для последующих поисковых систем.
1993 Архитекстовый проект, работа пяти студентов из Стэнфордского университета, закладывает основу для запуска два года спустя. Поисковые системы WWW — Excite. Это позволило настроить поисковую систему под индивидуальные потребности пользователей, обеспечив тем самым возможность персонализации полученных результатов (после создания личного кабинета).
3. Страница старого суслика
1994 Запуск веб-сайта ALIWEB, создан Мартийна Костеракоторый индексировал метаданные и позволял пользователям отправлять страницы, которые они хотели проиндексировать, с описанием. Однако в то время загрузка страниц была слишком сложной задачей для пользователей.
1994 Он введен в эксплуатацию Проект Джерри’его Янга i Davida Filo — Yahoo.com (4), на основе их собственного веб-каталога. Название проекта происходит от аббревиатуры слов Еще один иерархический официозный оракул. Яху! функционирует по сей день. Yahoo была первой компанией, которая добилась глобального успеха, создав собственную поисковую систему.
С момента появления Yahoo (ранее известной как Jerry and David’s Guide to the World Wide Web) стало ясно, куда будут развиваться поисковые системы. Стало известно, что сервис такого типа сведется к окну, в котором следует ввести ключевое слово или ключевую фразу, после чего вы за доли секунды получите результаты поиска.
4. Страница каталога Yahoo в 1994 году.
1994 Запуск тогдашнего инновационного сервиса Webcrawler, полнотекстовой поисковой системы для веб-сайтов, особенно отличающейся возможностью поиска по содержимому определенной страницы, опуская компоненты кода. Поисковая система Webcrawler работает по сей день в.
1994 Восстание, основанное на действиях роботы проникают в сеть поисковой системы Lycos. В 1996 году Lycos идентифицировала 60 миллионов документов, больше, чем любая другая поисковая система до этого (5). В последующие годы вокруг поисковой системы был построен портал, позволяющий публикация объявлений. В результате веб-сайт приносит многомиллионные доходы, а в 1999 году он опередил Yahoo! Однако в следующем году Lycos терпит крах в результате сочетания неблагоприятных событий, в первую очередь появления Google в качестве серьезного конкурента, ухода рекламодателей, внутренних споров и ухода ключевых менеджеров.
5. Поисковый сайт Lycos, 1996 г.
1995 Появляется Высокий вид, работа исследователей Корпорация цифрового оборудования. Однако прежде чем была построена сама поисковая система, DEC сначала взялась за создание системы для сбора слов в индексе, которая, в свою очередь, стала своего рода фундаментом для AltaVista. Стоит добавить, что это была первая многоязычная поисковая система, которая позволяла пользователю использовать нелатинские символы (например, японские). Для AV были характерны современные решения, такие как система BabelFish, благодаря которой стал возможен автоматический перевод страниц.
1995 Строится в Польше первый каталог, который также функционирует как поисковая система веб-сайта Ораз Информационная служба Wirtualna Polska.
1996 В Стэнфордском университете в рамках студенческого проекта первые плоды поисковой системы Google, которая сначала называлась BackRub (6). Его создатели Ларри Пейдж а также. В соответствии с первоначальными предположениями выпускников, проект должен работать на основе анализа зависимостей между сайтами. Алгоритм, разработанный студентами, ранжировал страницы с использованием тегов цитирования, что означало, что любое упоминание веб-сайта на другой странице засчитывалось как рейтинговый голос в пользу цитируемой страницы. Позиция страницы зависела от того, сколько страниц ссылались на нее в сочетании с информацией о позиции ссылающихся страниц.
Компания Google Inc. со штаб-квартирой в Менло-Парке, штат Калифорния, была основана в 1998 году. Неизменный интерес к поисковой системе в сочетании с полученной прибылью позволили компании развиваться дальше и делать новые инвестиции. В 1999 году создается первый официальный сайт проекта Google. Название самой поисковой системы происходит от математической фразы «гугол», означающей 10100.
6. История Google на временной шкале
1998-2009 С новой версией операционной системы Windows 98 в наборе служб Microsoft появляется MSN Search (7), считающийся прародителем всем известного Bing. Однако путь Microsoft к собственной поисковой системе в Интернете был непростым. Первоначально Microsoft запустила MSN Search, в 1998 году она использовала результаты поиска Inktomi. Позже использовались и другие инструменты, в том числе с АльтаВиста. В конце концов Microsoft решила инвестировать в собственную поисковую систему, индекс которой обновлялся еженедельно, а иногда и ежедневно.
Первая общедоступная бета-версия Windows Live Search был представлен в марте 2006 г., а последний выпуск состоялся 11 сентября 2006 г., заменив MSN Search. Новая поисковая система использовала вкладки поиска, которые включали веб-страницы, новости, изображения, музыку, рабочий стол, локальные службы и Microsoft Encarta. Последующие годы снова были бурной историей реорганизации и изменений, которые в конечном итоге привели к переименованию поисковой системы Microsoft в Bing, соглашению о поиске и распределении доходов с Yahoo! и разработка новых функций, аналогичных тем, которые были представлены Google.
2005 W алгоритмы индексации страниц для поисковых систем есть тег «nofollow», который исключал любой некачественный контент, спам и т.н. контент-фермы из рейтинга поисковых систем. Это решение было представлено крупнейшими поисковыми системами — Google, Microsoft и Yahoo!
2008 (8) поисковая система, которая использует веб-сайты, созданные пользователями Интернета, в дополнение к традиционным источникам данных для улучшения качества результатов. Поисковая система основана на программном обеспечении с открытым исходным кодом (включая perl, FreeBSD, PostgreSQL, nginx, Memcached). Создатели поисковика сделали упор на защита конфиденциальности пользователей и утверждают, что не собирают о них никаких данных, что со временем, особенно в последние годы, вызывает солидный рост рыночной доли поисковика, в основном за счет Google. 11 января 2021 года компания поставила новый однодневный рекорд — более 100 миллионов поисковых запросов.
8. Иконки DuckDuckGo и Google на экране телефона
2008 Google представляет услугу «Google Suggest», с помощью которой пользователи получают раскрывающиеся списки предложений и предложенных тем, связанных с их поисковыми запросами.
2009 Запуск веб-сайта Wolfram Alpha, которая формулирует ответы на запросы пользователя на естественном языке, выполняет вычисления, представляет статистику, решает уравнения и т. д. Первоначально она была написана примерно в пяти миллионах строк кода в виде программы (Mathematica), работающей на 10 XNUMX ЦП. В настоящее время система представлена в виде веб-сайта с API, позволяющим доставлять ответы другим приложениям. Одним из таких приложений является Microsoft Bing.
2010 На рынке появляются сервисы голосового поиска, запущенные почти одновременно двумя гигантами, Google и Apple. Голосовой поиск как инструмент от Google, он позволяет пользователю использовать микрофон на телефоне для создания поисковых запросов. Изначально для запуска инструмента нужно было ввести номер (650) 623-6706, затем пользователь ждал слов «Say your Search Keywords», услышав которые, мог произнести фразу, которую хотел найти. Инструмент обновлял страницу или генерировал ссылку на страницу поиска с запросом пользователя.
С тех пор, как Google начал использовать такие технологии распознавания речи, как ГООГ-411, версии, использующие номер телефона, были деактивированы. Apple представила свое решение для голосового поиска в феврале 2010 года, выпустив приложение под названием Siri для устройств iOS. Программное обеспечение основано на диалоговом интерфейсе. Распознавая естественную речь пользователя, он отвечает на его вопросы и выполняет поставленные перед ним задачи. Благодаря использованию машинного обучения помощник анализирует личные предпочтения пользователя, обеспечивая тем самым более индивидуальные результаты.
Таким образом, 2010 год можно считать началом эры разговорного поиска (9), основанного на чат-ботах и других инструментах, позволяющих взаимодействовать с поисковой системой на живом языке.
9. Самые популярные голосовые поисковые системы
2015 Google выпускает обновление инструмента поиска, которое делает веб-сайты более удобными для пользователей. мобильные устройства выше в результатах поиска с мобильных устройств. Вскоре после этого Bing публикует собственное обновление алгоритма для мобильных устройств.
Классификация поисковых систем и методы, которые они используют
I. Деление поисковых систем по способу поиска
1. Поисковые системы на основе анализа контента сайта
Интернет растет намного быстрее, чем любая группа людей может каталогизировать его. Кроме того, некогда популярные каталоги имеют существенные недостатки, т.е. под одним паролем могут быть тысячи страниц. Именно поэтому были созданы поисковые системы, которые осуществляют поиск в Интернете, анализируя содержание страниц. Когда пользователь отправляет запрос в поисковую систему, она отвечает ему ссылками на страницы, которые считает наиболее подходящими, в зависимости от используемого алгоритма.
Поисковые системы, основанные на этом принципе, могут охватывать гораздо большую часть Интернета, чем каталоги. К сожалению, они очень подвержены злоупотреблениям, так что пользователь вместо полезной информации получает ссылки на сайты, которые не имеют ничего общего с его запросом.
2. Поисковые системы на основе анализа топологии сети
Чтобы противодействовать злоупотреблению механизмом анализа содержимого веб-сайта, используются поисковые системы, в которых страницы, на которые ссылается наибольшее количество страниц по заданному запросу, отображаются вверху списка. Таким образом, страница считается соответствующей запросу «Iga Świątek», если на нее ссылается много страниц по теме «Iga Świątek». Первой поисковой системой, использовавшей расширенные алгоритмы анализа топологии сети, была Google.
Часто считается, что поисковые системы, основанные на топологии, очень невосприимчивы к злоупотреблениям. Они на самом деле уязвимы для атаки путем рассылки спама в системы автоматического обмена ссылками. Другой формой атаки или злоупотребления этим механизмом является создание большого количества страниц с большим количеством ссылок на одну и ту же тему. Однако это сложная задача для потенциальных мошенников, поскольку требует много работы. Кроме того, новейшие механизмы и алгоритмы, используемые крупнейшими поисковыми системами, позволяют достаточно эффективно выявлять и блокировать этот вид практики.
3. Поисковики по принципу аукциона мест
Отдельную мысль вводит Система увертюрыгде страницы платят поисковой системе за каждый клик, а места выставляются на аукцион — та страница, которая дает больше за клик, будет выше в списке результатов. Платные товары помечаются как таковые вместе с ценой. Эта система выгодна владельцам сайтов — они платят только за входы, а не за просмотры.
Создатели говорят, что это выгодно и для пользователя, ведь позволить себе такую рекламу могут только страницы, которые предлагают что-то полезное в данной сфере. С другой стороны, многие полезные веб-сайты являются некоммерческими, и даже с коммерческими веб-сайтами результаты часто будут не самыми лучшими для пользователя, потому что тот факт, что компания может позволить себе инвестировать в позиции в такой поисковой системе, не означает то, что имеет отношение к предложению, является наиболее оптимальным с точки зрения получателя.
II. Программное обеспечение для поисковых систем
Программное обеспечение поисковой системы представляет собой набор программ, модулей, у каждого из которых есть отдельная задача. В комплект входят такие элементы, как:
- Crawler, Robot, Spider, Spider, Bot — модули загрузки документов из сети
- Indexer — модуль анализа и оценки
- Searcher — интерфейс поисковой системы/подсистема, отвечающая на запросы/анализатор запросов и модуль представления результатов
Это также:
- программы преобразования документов (например, PDF)
- программы-архиваторы репозиториев (чаще всего в сжатом виде)
- программы для анализа и обнаружения нежелательных приемов (спама)
- модули администрирования
Современное программное обеспечение поисковой системы представляет собой очень сложную распределенную систему, обычно работающую на многих отдельных этапах на тысячах отдельных компьютеров — как из-за размера и масштаба обыскиваемой сети, так и из-за повышения доступности службы в случае отказа отдельных компонентов. .

