18 сентября 2003
1505

Павел Шалин: Кто ищет, тот всегда найдет

Практика показывает, что при определенном желании утонуть можно где угодно: в Атлантическом океане и в тарелке с борщом, в глазах любимого человека и в неконтролируемом потоке информации. Последний аспект наиболее важен для людей, так или иначе связанных с информационными технологиями, будь то использование домашнего компьютера или администрирование локальной сети крупного предприятия, а в особенности - при эксплуатации интернет. И если неосторожного пловца, нахлебавшегося соленой атлантической воды, еще можно попытаться спасти, пользователю, потерявшемуся в глубинах Всемирной Сети, искусственное дыхание не поможет. Именно поэтому в наше время так актуален вопрос четкой структуризации и оперативного доступа к хранящимся в интернет тематическим данным. Итак, поговорим о поисковых системах, господа.

Из школьного курса физики известно, что материя может принимать лишь два устойчивых состояния, а именно - представлять из себя либо вещество, либо энергию. И то, и другое поддается четкой количественной оценке, и то и другое подчиняется строго определенным физическим законам. Лишь в середине двадцатого века человечество обратило наконец внимание на тот непреложный факт, что в природе имеется третья, весьма абстрактная субстанция, которую нельзя отнести ни к одной из ранее изученных категорий. Имя ей - информация.

Понятие информации само по себе неоднозначно. Ею может быть диалог двух людей, часть телепрограммы новостей и сообщение электронной почты; цвет листьев, запах цветка и пение цикад в ночном саду - тоже информация. Обобщая, можно сказать, что информация в целом - это набор определенных сигналов или объективных данных, несущих какую-либо смысловую нагрузку, передающих "представление" о каком-либо объекте или явлении. Или, иными словами, попросту мера определенности в конкретном объеме однородных данных.

Первыми в истории нашей планеты "носителями информации" были сами люди, передававшие накопленный опыт, знания, впечатления об окружавших их событиях и явлениях из поколения в поколение посредством устной речи. Качественно новой ступенью в развитии цивилизации стало изобретение письменности - принципиально нового механизма накопления, хранения, передачи и распространения информации в пространстве и во времени. Очередным толчком в продвижении информационных технологий послужило открытое впоследствии книгопечатание, значительно облегчившее процесс накопления и систематизации знаний, и лишь несколько десятков лет назад, с изобретением электронных вычислительных машин и достаточно мощных средств коммуникаций информация предстала перед нами в своем "чистом виде" - а именно, в электронной форме. Именно тогда для нее, как и для любой другой физической величины, были предложены соответствующие единицы измерения, именно тогда были сформулированы первые математические законы, действию которых она подчиняется.

Если проследить динамику роста объемов накопленной и обрабатываемой человечеством информации за последние несколько столетий, подобный график примет вид экспоненты. С появлением возможности практически неограниченной концентрации данных в электронной форме в глобальной сети интернет эта кривая все более и более приближается к вертикали. Изучая общие тенденции увеличения и расширения существующих на сегодняшний день информационных потоков, можно смело говорить о трех математических закономерностях, непосредственно связанных с развитием Всемирной компьютерной сети. А именно, вероятность наличия в интернет необходимых в тот или иной момент времени данных стремится к бесконечности; общее количество хранящихся там данных увеличивается в геометрической прогрессии; вероятность же нахождения нужной пользователю информации обратно пропорциональна коэффициенту роста ее общего объема. То есть, чем больше в интернет информации вообще, тем меньше у человека шансов найти среди нее именно то, что ему необходимо. Решать эту проблему и призваны поисковые машины.

Функционально подобные системы можно разделить на две характерные категории - интерактивные каталоги и собственно поисковые машины. В первом случае на сервере хранится база данных, включающая адрес web-страницы, ее краткое описание и перечень ключевых слов, на которые должен реагировать соответствующий CGI-сценарий при получении соответствующего запроса. База разбита на тематические разделы, они в свою очередь могут дробиться на категории с более узкой тематикой, причем пользователь имеет возможность осуществлять поиск как по всем имеющимся данным, так и в каком-либо конкретном разделе. После ввода запроса в поисковую форму сервер передает управление CGI-скрипту, который, последовательно "пролистывая" базу, выявляет соответствия введенной пользователем фразы имеющимся в каталоге ключевым словам, генерируя и выводя на экран файл отчета. Недостаток подобного алгоритма очевиден: такая система просматривает только собственную базу данных, и если хранящаяся в ней ссылка по каким-либо причинам недействительна, она будет включена в отчет наравне со всеми остальными. Самые известные в интернет интерактивные каталоги - это американский сервер

"Yahoo!" и русскоязычная система "List.ru".

Совершенно иначе работает поисковая машина. Создав какой-либо web-сайт и разместив его в сети Интернет, разработчик этого сайта регистрирует его адрес в поисковой системе, иными словами - вносит URL стартовой странички своего ресурса в соответствующее поле на поисковом сервере, предназначенное для регистрации новых "поступлений". Вслед за этим специальная программа поисковой машины, называемая роботом или спайдером (от англ. spider - "паук") просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс называется индексацией web-страниц. Как правило, индекс поискового сервера содержит только адреса web-страниц и краткую "аннотацию", поясняющую их содержимое, почерпнутую из текста самих проиндексированных документов. Спустя некоторое время робот автоматически проводит переиндексацию, позволяющую удалить из базы данных устаревшие и более недействительные ссылки.

Обращаясь к ресурсам поисковой машины, пользователь просто вводит в поле текстового запроса ключевые слова либо некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку "искать". В этот момент поисковый сервер передает управление другой программе, которая называется "поисковым механизмом". Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия. Для увеличения вероятности обнаружения интересующих пользователя данных, наиболее "продвинутые" версии подобных программ могут самостоятельно просклонять и проспрягать ключевые слова, увеличив тем самым количество исходных словоформ за счет их производных: например, в ответ запрос "идти" поисковый механизм может расширить диапазон поиска, включив в список ключевых слов глаголы "пойти", "шел", "шла", "пойдет" и т.д. Ссылки, в описании которых обнаруживаются подобные совпадения, автоматически включаются поисковым механизмом в файл отчета, который предоставляется пользователю в виде последовательного списка, содержащего гиперссылки на найденные ресурсы с краткими текстовыми аннотациями для каждой из них. Степень соответствия обнаруженных таким образом ссылок исходному запросу называется релевантностью поиска.

Такой алгоритм также имеет ряд существенных "минусов". Например, недобросовестные вэб-мастера могут включать в код расположенных на их сайте файлов HTML мета-тэги с описанием содержимого страницы и ключевыми словами, не соответствующими реальному контенту; также в некоторых случаях возможно включение наиболее часто запрашиваемых пользователями поисковых машин слов в невидимые комментарии или скрытые текстовые блоки - например, белым шрифтом по белому фону. Такого рода действия, безусловно, способны значительно увеличить посещаемость какой-либо конкретной страницы, но одновременно с этим они вносят заметную путаницу в результаты функционирования поисковых систем.

Чтобы по возможности исключить некорректность работы поисковиков, в настоящее время используется два метода. Первый из них - реализация так называемого языка запросов: а именно, пользователю предлагается максимально конкретизировать подаваемый запрос с помощью специального набора команд. Список команд варьируется от системы к системе, но в общем виде он включает следующие компоненты: логическое "И" в пределах запроса и в пределах искомого документа, заставляющее сервер отображать только текст, содержащий все слова заданного словосочетания; логическое "ИЛИ", исключающее один из элементов фразы, оператор "И НЕ", обеспечивающий поиск предложения, в котором присутствует слово, стоящее до оператора, и отсутствует расположенное после. С помощью языка запросов можно заставить машину искать только какую-либо конкретную фразу, искать только в заголовках файлов или в альтернативном тексте к графическим изображениям. Более детально семантика подобных команд описана в соответствующих разделах каждого конкретного поискового сервера.

Второй метод заключается в ограничении диапазона поиска. Самый простой вариант - это попытка обнаружить какую-либо строго заданную фразу в списке уже найденных документов, соответствующих менее жестким требованиям. Имеется возможность ограничить перечень исследуемых ресурсов какими-либо конкретными серверами, либо исключить из рассматриваемого диапазона ряд узлов.

Тем не менее, все без исключения поисковые службы и интерактивные каталоги страдают одной и той же неизлечимой "болезнью": они не умеют полноценно анализировать текст. Ни один поисковик не может адекватно воспринять контекст, когда сталкивается с многозначностью того или иного слова. Именно поэтому пользователь, ищущий информацию, касающуюся "закона об авторских правах", в первую очередь обнаружит в созданном машиной отчете "закон всемирного тяготения", "закон распределения энергии" и "сатирические законы Мерфи". Ни один поисковик не умеет обрабатывать стойкие идиоматические обороты и чаще всего "спотыкается" о смесь русских и английских слов. Иными словами, несмотря на небывалый прогресс подобных интернет-технологий, лучше человека с поиском информации во Всемирной Сети на сегодняшний день не справится ни одна машина. В качестве иллюстрации к предложенному выше описанию поисковых серверов можно привести два адреса: американской "Альтависты" и российского "Яндекса" .

Так или иначе, алгоритмы обработки информации, применяемые поисковыми службами, продолжают совершенствоваться. Уже идет речь о создании систем, способных действовать "методом аналогий", подбирать к заданным пользователем словам корректные синонимы, автоматически переводить запросы с одного языка на другой К сожалению, в настоящее время поиск информации в интернет - это сложная "наука", требующая определенных навыков и значительного опыта. Но даже располагая уже имеющимися на сегодняшний день в распоряжении каждого из нас возможностями и ресурсами, при определенном желании и упорстве можно добиться требуемого результата. Кто ищет, тот всегда найдет.


www.holmogorov.ru

18.09.2003
Рейтинг всех персональных страниц

Избранные публикации

Как стать нашим автором?
Прислать нам свою биографию или статью

Присылайте нам любой материал и, если он не содержит сведений запрещенных к публикации
в СМИ законом и соответствует политике нашего портала, он будет опубликован