Ответы на вопросы: что станут искать поисковые системы недалёкого будущего
- Кирилл Тихонов, "Компьютерра" 14 апреля 2009 года
Со временем задача поисковых систем изменится. Поиск сайтов по ключевым словам был лишь началом, и уже сейчас их деятельность этим не ограничивается. Поисковики оцифровывают книги, хранят географические базы данных и собирают энциклопедические факты. В будущем они будут использовать всю доступную им информацию, чтобы дать пользователю наилучший ответ - и далеко не всегда в форме ссылки.
Такого мнения придерживаются директор Google по исследованиям Питер Норвиг и глава Yahoo Research Прабхакар Рагаван. Во время совместного выступления на прошлогодней конференции DemoFall08 они сошлись во мнении, что веб-поиск следует рассматривать лишь как один из множества способов достижения цели, которая интересует пользователя.
“Что нужно для того, чтобы распознать намерение пользователя и синтезировать последовательность действий, которая удовлетворит его? Предположим, вы планируете отпуск, - развивает мысль Прабхакар Рагаван. - Система должна сказать: я рекомендую такую-то поездку, исходя из доступных средств, а также того факта, что у вас двое детей и нет особого желания посещать музеи. Вот будущее, к которому мы должны стремиться.”
Чтобы эта фантастическая картина стала реальностью, поисковым системам придётся пережить существенные изменения. Современные поисковики, конечно, индексируют сайты с информацией о турпоездках, но для них эта информация - лишь текст с непонятным смыслом. Вдобавок, далеко не все необходимые данные доступны в Интернете. С задачей справилась бы специализированная система для подбора туров, но это плохое решение проблемы, потому что подобных задач тысячи, если не миллионы. Не изобретать же для каждой из них отдельный поисковик.
Чтобы перейти от поиска ссылок к поиску ответов, поисковым системам нужна качественная информация. Согласно исследованию, опубликованному университетом Калифорнии в Беркли, традиционные поисковые системы индексируют лишь 0,2% содержащейся в Интернете информации. Остальное хранится во всевозможных базах данных, из которых трудно или невозможно что-то извлечь с помощью стандартных поисковых роботов.
Невидимые в поисковиках данные называют “глубинным вебом”. Проблема в том, что об этих “глубинах” почти ничего не известно. Даже если принять на веру их якобы чудовищную величину, остаётся вопрос: что за информация там скрывается? Где-то там, вероятно, находятся закрытые научные и медицинские библиотеки, каталоги магазинов, финансовые данные, транспортные расписания и многое другое. Но вполне возможно, что значительная их доля никому не нужна или дублирует сведения, которые имеются в других, более легкодоступных местах.
Правда, информация, хранящаяся в базах данных, имеет одно важное преимущество. В отличие от веба, она имеет понятную для компьютера структуру. Чтобы автоматически найти в тексте сайта турагентства подходящую по цене и срокам путёвку, необходим искусственный интеллект. Чтобы извлечь ту же самую информацию из базы данных турагентства, порой достаточно знания SQL.
Поток компаний, рассчитывающих нащупать в глубинном вебе золотую жилу, не ослабевает с конца девяностых. Вот свежий пример: компания DeepDyve, шумно объявившая о себе в конце 2008 года. Недавнее известие о том, что основатель Apple Стив Возняк стал её советником, вызвало новую волну интереса к стартапу, занимающемуся “глубинным поиском”.
DeepDyve основан парой исследователей, прежде работавших над проектом “Геном человека”. Обычный поиск их не удовлетворяет, поскольку с его помощью проще всего найти популярную информацию, а популярность, как они считают, редко означает качество. DeepDyve не индексирует что попало - все источники отбираются вручную. В его индексе содержатся лишь медицинские базы данных, патентная информация, энциклопедии и научные журналы, в том числе и те из них, которые доступны лишь по подписке.
Во время одной из презентаций исполнительный директор DeepDyve Уильям Парк рассказал о случае, произошедшем с одним из его старых знакомых. У него обнаружили заболевание, название которого ни о чём ему не говорило. Все попытки отыскать толковую информацию о болезни в Google ни к чему не привели: поисковик выдавал ссылки на краткие справки и любительские описания. DeepDyve - совсем другое дело. Первая же ссылка, которую вернул сервис, вела к подробнейшей научной статье по нужной теме.
В Google тоже экспериментируют в области “глубинного поиска”. В компании разработали специализированного поискового робота, который пытается проиндексировать сайты, предоставляющие поиск по своим базам данных. Робот осторожно экспериментирует с поисковой формой сайта, “скармливая” ей разнообразные запросы и анализируя выдачу. Постепенно он вырабатывает модель, которая описывает структуру баз данных сайта. Когда модель готова, индексация - это дело техники.
Концепция семантического веба в той форме, которую пропагандирует Тим Бернерс-Ли, по большому счёту, служит для решения всё той же задачи: размещения в Интернете данных, понятных не только людям, но и компьютерам. На февральской конференции TED Бернерс-Ли рассказывал об очередной вариации на ту же тему - так называемых “связанных данных” (linked data), перспективном способе публикации машиночитаемой информации.
Семантический веб регулярно критикуют за идеализм и нереалистичность. “Мир подробных и надежных метаданных - утопия”, - пишет Кори Доктороу в статье “Метачушь”, самом, пожалуй, исчерпывающем изложении недостатков этой концепции. Она целиком и полностью зависит от метаданных, которые создают люди, и в этом её главная уязвимость. Люди часто врут, они неспособны договориться друг с другом и совершают глупейшие ошибки. Ждать от них качественных метаданных нет смысла, а без метаданных семантического веба не построить.
Однако утопичность семантического веба не убавляет полезность его отдельных элементов. "Связанные данные" уже используются для создания на основе “Википедии” гигантского хранилища машиночитаемых фактов DBpedia. Если такой формат поддержат другие онлайновые базы данных, это может заметно повлиять на будущее поиска.
Сейчас поисковики, как правило, обходятся примитивным поиском по текстам в Интернете. Если им станут доступны структурированные данные, поиска по текстам будет мало. Потребуется умение оперировать фактами. Интеллектуальность - это другое свойство, которым часто кичатся поисковые стартапы.
Практически единственное, для чего годится сервис, запущенный компанией Powerset - это интеллектуальный поиск по набору фактов, извлечённых из “Википедии”, тому самому, который хранится в общедоступной DBPedia. Интеллектуальность Powerset заключается в том, что запрос воспринимается не как набор ключевых слов. Программа в самом деле пытается понять, что именно нужно пользователю. Несмотря на невпечатляющие масштабы проекта, когда Powerset открылся, его почти всерьёз называли “убийцей Google”, а в июле прошлого года Microsoft приобрёл компанию за 100 млн. долларов. Теперь, судя по всему, технологию Powerset встроят в майкрософтовский Live Search: скриншоты бета-версии нового поисковика с кодовым названием Kumo в марте всплыли в Интернете.
Ещё амбициознее проект Wolfram Alpha, который разрабатывает компания Wolfram Research. Автор проекта - знаменитый бизнесмен и математик Стивен Вольфрам. Известность ему принесла система компьютерной алгебры Mathematica, которую повсеместно используют учёные и инженеры. Кроме того, несколько лет назад он издал книгу под названием “Наука нового рода”, в которой утверждалось, что вселенная имеет цифровую природу и основана на клеточных автоматах. Эксцентричное сочинение слегка подпортило репутацию Вольфрама, так что в анонс Alpha поверили не все, тем более, что реальный продукт пока видели лишь избранные (открытие проекта для широкой публики ожидается к маю).
Очевидцы описывают Wolfram Alpha как систему, предназначенную не столько для поиска информации, сколько для “вычисления” и выдачи готовых ответов на основе специально подготовленных и отобранных баз данных. Утверждается, что в Alpha внесены огромные массивы фактов о физических законах, разнообразных объектах, технике, географии, погоде, экономике, людях и многом другом. Программа способна улавливать связи между различными фактами и при необходимости использовать их.
Известный исследователь в области искусственного интеллекта Дуг Ленат утверждает, что Wolfram Alpha произвела на него положительное впечатление. Система действительно работает, хотя и представляет собой не совсем то, что можно вообразить из расплывчатых описаний, гуляющих по Интернету. Это не искусственный интеллект, а, скорее, интеллектуальная система для изучения заложенной в ней информации.
“Если ввести запрос наподобие “ВВП Франция / Германия”, - описывает Ленат свой опыт работы с Alpha, - она вычислит и выдаст график отношения внутренних валовых продуктов Франции и Германии в течении последних тридцати лет или около того. Если написать просто “ВВП”, то она определит IP-адрес и показывает (в моём случае) ВВП США плюс различную информацию о том, что такое внутренний валовой продукт, причём с точки зрения формул, а не семантики.”
Хотя программа умеет находить ответы, она не всесильна и не разумна. Далеко не на каждый вопрос у неё готов ответ, но даже альфа-версия, по словам Лената, неплохо справляется с огромным разнообразием численных и научных запросов.
Конечно, продукты в духе Wolfram Alpha не заменят поисковые системы. Скорее уж наоборот, поисковые системы впитают у них способность манипулировать данными. Её зачатки уже сейчас демонстрируют Google или “Яндекс”. Попробуйте спросить у “Яндекса”, который час или какая погода в Сочи. Он не отправит вас на другой сайт - на такие вопросы поисковик ответит сам.
Будущее поиска по Google
Мобильный поиск. В будущем поиск будет доступен не только для пользователей компьютера. Им будет легко пользоваться и в пути - в автомобиле, с мобильного телефона или даже с помощью гаджетов, которых ещё не существует. Скажем, кто откажется от специального устройства, которое непрерывно ищет информацию, используя в качестве запросов случайно услышанные слова или увиденные вывески и предметы?
Нетекстовые запросы. Мобильные устройства редко дружат с текстом - маленькие клавиатуры неудобны. Но поисковые системы и не должны ограничиваться текстом. Им не помешало быы научиться распознавать голосовые и звуковые запросы (что это за песня там играет?) или запросы-изображения (что пишут в Интернете про книжку с вот такой обложкой? Отчасти это уже работает (например, в Google Mobile для iPhone), но пока не так, как хотелось бы.
Дизайн. Все привыкли, что на странице результатов поиска их ждёт десять ссылок и, возможно, контекстная реклама. Но кто сказал, что это идеальный интерфейс? Возможно, существуют и более удачные варианты. Результаты могут быть более интерактивными. Они могут более явно отражать относительную важность результатов. А, может, стоит добавить побольше картинок и видео?
Контекст. Поисковик немало знает о своих пользователях и должен использовать эту информацию им на благо. По IP-адресу легко определить, откуда отправлен запрос (а если запрос отправлен с мобильного телефона, то его координаты нетрудно установить едва ли не с точностью до нескольких метров). Результаты поиска, связанные с местом, где находится пользователь, определённо более релевантны.
Язык. Совершенно необязательно наилучший ответ на вопрос пользователя содержится на странице, написанной на его языке. Иногда единственный результат оказывается на, скажем, португальской или китайской странице. Если искать строго по заданным ключевым словам, пользователь останется в проигрыше. Лучше попробовать перевести запрос автоматически и подмешать найденное к обычным результатам.