18 сентября 2003

Павел Шалин: Кто ищет, тот всегда найдет

Практика показывает, что при определенном желании утонуть можно где угодно: в Атлантическом океане и в тарелке с борщом, в глазах любимого человека и в неконтролируемом потоке информации. Последний аспект наиболее важен для людей, так или иначе связанных с информационными технологиями, будь то использование домашнего компьютера или администрирование локальной сети крупного предприятия, а в особенности - при эксплуатации интернет. И если неосторожного пловца, нахлебавшегося соленой атлантической воды, еще можно попытаться спасти, пользователю, потерявшемуся в глубинах Всемирной Сети, искусственное дыхание не поможет. Именно поэтому в наше время так актуален вопрос четкой структуризации и оперативного доступа к хранящимся в интернет тематическим данным. Итак, поговорим о поисковых системах, господа.

Из школьного курса физики известно, что материя может принимать лишь два устойчивых состояния, а именно - представлять из себя либо вещество, либо энергию. И то, и другое поддается четкой количественной оценке, и то и другое подчиняется строго определенным физическим законам. Лишь в середине двадцатого века человечество обратило наконец внимание на тот непреложный факт, что в природе имеется третья, весьма абстрактная субстанция, которую нельзя отнести ни к одной из ранее изученных категорий. Имя ей - информация.

Понятие информации само по себе неоднозначно. Ею может быть диалог двух людей, часть телепрограммы новостей и сообщение электронной почты; цвет листьев, запах цветка и пение цикад в ночном саду - тоже информация. Обобщая, можно сказать, что информация в целом - это набор определенных сигналов или объективных данных, несущих какую-либо смысловую нагрузку, передающих "представление" о каком-либо объекте или явлении. Или, иными словами, попросту мера определенности в конкретном объеме однородных данных.

Первыми в истории нашей планеты "носителями информации" были сами люди, передававшие накопленный опыт, знания, впечатления об окружавших их событиях и явлениях из поколения в поколение посредством устной речи. Качественно новой ступенью в развитии цивилизации стало изобретение письменности - принципиально нового механизма накопления, хранения, передачи и распространения информации в пространстве и во времени. Очередным толчком в продвижении информационных технологий послужило открытое впоследствии книгопечатание, значительно облегчившее процесс накопления и систематизации знаний, и лишь несколько десятков лет назад, с изобретением электронных вычислительных машин и достаточно мощных средств коммуникаций информация предстала перед нами в своем "чистом виде" - а именно, в электронной форме. Именно тогда для нее, как и для любой другой физической величины, были предложены соответствующие единицы измерения, именно тогда были сформулированы первые математические законы, действию которых она подчиняется.

Если проследить динамику роста объемов накопленной и обрабатываемой человечеством информации за последние несколько столетий, подобный график примет вид экспоненты. С появлением возможности практически неограниченной концентрации данных в электронной форме в глобальной сети интернет эта кривая все более и более приближается к вертикали. Изучая общие тенденции увеличения и расширения существующих на сегодняшний день информационных потоков, можно смело говорить о трех математических закономерностях, непосредственно связанных с развитием Всемирной компьютерной сети. А именно, вероятность наличия в интернет необходимых в тот или иной момент времени данных стремится к бесконечности; общее количество хранящихся там данных увеличивается в геометрической прогрессии; вероятность же нахождения нужной пользователю информации обратно пропорциональна коэффициенту роста ее общего объема. То есть, чем больше в интернет информации вообще, тем меньше у человека шансов найти среди нее именно то, что ему необходимо. Решать эту проблему и призваны поисковые машины.

Функционально подобные системы можно разделить на две характерные категории - интерактивные каталоги и собственно поисковые машины. В первом случае на сервере хранится база данных, включающая адрес web-страницы, ее краткое описание и перечень ключевых слов, на которые должен реагировать соответствующий CGI-сценарий при получении соответствующего запроса. База разбита на тематические разделы, они в свою очередь могут дробиться на категории с более узкой тематикой, причем пользователь имеет возможность осуществлять поиск как по всем имеющимся данным, так и в каком-либо конкретном разделе. После ввода запроса в поисковую форму сервер передает управление CGI-скрипту, который, последовательно "пролистывая" базу, выявляет соответствия введенной пользователем фразы имеющимся в каталоге ключевым словам, генерируя и выводя на экран файл отчета. Недостаток подобного алгоритма очевиден: такая система просматривает только собственную базу данных, и если хранящаяся в ней ссылка по каким-либо причинам недействительна, она будет включена в отчет наравне со всеми остальными. Самые известные в интернет интерактивные каталоги - это американский сервер

"Yahoo!" и русскоязычная система "List.ru".

Совершенно иначе работает поисковая машина. Создав какой-либо web-сайт и разместив его в сети Интернет, разработчик этого сайта регистрирует его адрес в поисковой системе, иными словами - вносит URL стартовой странички своего ресурса в соответствующее поле на поисковом сервере, предназначенное для регистрации новых "поступлений". Вслед за этим специальная программа поисковой машины, называемая роботом или спайдером (от англ. spider - "паук") просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс называется индексацией web-страниц. Как правило, индекс поискового сервера содержит только адреса web-страниц и краткую "аннотацию", поясняющую их содержимое, почерпнутую из текста самих проиндексированных документов. Спустя некоторое время робот автоматически проводит переиндексацию, позволяющую удалить из базы данных устаревшие и более недействительные ссылки.

Обращаясь к ресурсам поисковой машины, пользователь просто вводит в поле текстового запроса ключевые слова либо некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку "искать". В этот момент поисковый сервер передает управление другой программе, которая называется "поисковым механизмом". Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия. Для увеличения вероятности обнаружения интересующих пользователя данных, наиболее "продвинутые" версии подобных программ могут самостоятельно просклонять и проспрягать ключевые слова, увеличив тем самым количество исходных словоформ за счет их производных: например, в ответ запрос "идти" поисковый механизм может расширить диапазон поиска, включив в список ключевых слов глаголы "пойти", "шел", "шла", "пойдет" и т.д. Ссылки, в описании которых обнаруживаются подобные совпадения, автоматически включаются поисковым механизмом в файл отчета, который предоставляется пользователю в виде последовательного списка, содержащего гиперссылки на найденные ресурсы с краткими текстовыми аннотациями для каждой из них. Степень соответствия обнаруженных таким образом ссылок исходному запросу называется релевантностью поиска.

Такой алгоритм также имеет ряд существенных "минусов". Например, недобросовестные вэб-мастера могут включать в код расположенных на их сайте файлов HTML мета-тэги с описанием содержимого страницы и ключевыми словами, не соответствующими реальному контенту; также в некоторых случаях возможно включение наиболее часто запрашиваемых пользователями поисковых машин слов в невидимые комментарии или скрытые текстовые блоки - например, белым шрифтом по белому фону. Такого рода действия, безусловно, способны значительно увеличить посещаемость какой-либо конкретной страницы, но одновременно с этим они вносят заметную путаницу в результаты функционирования поисковых систем.

Чтобы по возможности исключить некорректность работы поисковиков, в настоящее время используется два метода. Первый из них - реализация так называемого языка запросов: а именно, пользователю предлагается максимально конкретизировать подаваемый запрос с помощью специального набора команд. Список команд варьируется от системы к системе, но в общем виде он включает следующие компоненты: логическое "И" в пределах запроса и в пределах искомого документа, заставляющее сервер отображать только текст, содержащий все слова заданного словосочетания; логическое "ИЛИ", исключающее один из элементов фразы, оператор "И НЕ", обеспечивающий поиск предложения, в котором присутствует слово, стоящее до оператора, и отсутствует расположенное после. С помощью языка запросов можно заставить машину искать только какую-либо конкретную фразу, искать только в заголовках файлов или в альтернативном тексте к графическим изображениям. Более детально семантика подобных команд описана в соответствующих разделах каждого конкретного поискового сервера.

Второй метод заключается в ограничении диапазона поиска. Самый простой вариант - это попытка обнаружить какую-либо строго заданную фразу в списке уже найденных документов, соответствующих менее жестким требованиям. Имеется возможность ограничить перечень исследуемых ресурсов какими-либо конкретными серверами, либо исключить из рассматриваемого диапазона ряд узлов.

Тем не менее, все без исключения поисковые службы и интерактивные каталоги страдают одной и той же неизлечимой "болезнью": они не умеют полноценно анализировать текст. Ни один поисковик не может адекватно воспринять контекст, когда сталкивается с многозначностью того или иного слова. Именно поэтому пользователь, ищущий информацию, касающуюся "закона об авторских правах", в первую очередь обнаружит в созданном машиной отчете "закон всемирного тяготения", "закон распределения энергии" и "сатирические законы Мерфи". Ни один поисковик не умеет обрабатывать стойкие идиоматические обороты и чаще всего "спотыкается" о смесь русских и английских слов. Иными словами, несмотря на небывалый прогресс подобных интернет-технологий, лучше человека с поиском информации во Всемирной Сети на сегодняшний день не справится ни одна машина. В качестве иллюстрации к предложенному выше описанию поисковых серверов можно привести два адреса: американской "Альтависты" и российского "Яндекса" .

Так или иначе, алгоритмы обработки информации, применяемые поисковыми службами, продолжают совершенствоваться. Уже идет речь о создании систем, способных действовать "методом аналогий", подбирать к заданным пользователем словам корректные синонимы, автоматически переводить запросы с одного языка на другой К сожалению, в настоящее время поиск информации в интернет - это сложная "наука", требующая определенных навыков и значительного опыта. Но даже располагая уже имеющимися на сегодняшний день в распоряжении каждого из нас возможностями и ресурсами, при определенном желании и упорстве можно добиться требуемого результата. Кто ищет, тот всегда найдет.

www.holmogorov.ru

18.09.2003