Агратин Е.Г. Особенности комплектования источников в поисковых базах данных средств массовой информации // Информационные ресурсы России. – 2017. – №3.
УДК 025.2:025.21: 070.44
Аннотация. Статья посвящена комплектованию источников в поисковых базах данных средств массовой информации, под которым понимается совокупность последовательных и взаимосвязанных действий, направленных на выполнение задач по выявлению, оценке, отбору, заказу и приобретению источников или получению прав доступа к ним. Излагаются основные принципы и особенности комплектования источников в поисковых базах данных СМИ, которые рассматриваются как система, обеспечивающая реализацию функций сбора, обработки и хранения информации. Делается вывод, что комплектование носит характер многоаспектной селективности, с помощью которой можно определить, является ли целесообразным приобретение новых источников и есть ли необходимость в хранении уже имеющихся.
Ключевые слова: комплектование, сбор, отбор, обработка, хранение, распространение, поиск, электронный ресурс, источник, поисковая база данных СМИ, поисковая система, информационные потребности
Abstract. Abstract. The article is devoted to the acquisition of sources in the search databases of the mass media, which means a set of consistent and interrelated actions aimed at fulfilling the tasks of identifying, evaluating, selecting, ordering and acquiring sources or gaining access rights to them. The basic principles and features of acquisition of sources in the search databases of the media are outlined. These principles are considered as a system providing the implementation of functions for collecting, processing and storing information. It is concluded that the acquisition is a multi-aspect selectivity, with the help of which it is possible to determine whether it is expedient to purchase new sources and whether there is a need to store the already available one.
Keywords: acquisition of data, collection, selection, data processing, storing of information, distribution, search, electronic resource, source, media retrieval database, search system (search engine), information needs
Некогда поставщиком документов был библиотекарь,
который очень часто носил такое выразительное звание как
"хранитель"! Его роль сводилась к накоплению документов…
и к ожиданию момента, когда придут за ними [6]
М. ван Дейк, Ж. ван Слип
Уже не одно десятилетие непрерывно возрастает число специалистов, которые занимаются поиском, сбором, хранением и распространением информации, необходимой для аналитиков в их исследованиях, практиков – в их повседневной работе и топ менеджеров в управлении компаниями или государственными учреждениями. Поэтому обработка информации с использованием информационно-поисковых баз данных получила широкое распространение [6].
В нашем исследовании речь пойдет в первую очередь о функциях сбора (комплектования) источников в информационно-поисковых базах данных средств массовой информации (СМИ) под которыми будем понимать систему, обеспечивающую реализацию функций сбора (комплектования), обработки (процессы каталогизации – классификация), хранения, поиска, выдачи и распространения информации.
До настоящего времени проблема комплектования источников в поисковых базах данных СМИ и ее многочисленные аспекты практически не оказывались в поле зрения специалистов соответствующих дисциплин – информатики, издательского дела и журналистики. Главным образом она рассматривалась в библиотечном деле, где накоплен существенный теоретический и практический опыт [9].
Комплектованием (от лат. completus – полный) называется создание и постоянное обновление поисковой базы данных документами (источниками), отвечающими задачам информационной службы и интересам пользователей. К наиболее значимым поисковым базам данных СМИ относятся: "Интегрум" (http://integrum.ru), "Медиалогия" (http://www.mlg.ru), "Публичная библиотека" (http://public.ru) и "Система комплексного анализа новостей (СКАН)" (http://scan-interfax.ru) [4].
"Интегрум" (http://integrum.ru) – на рынке с 1996 г. База данных содержит как материалы печатных, электронных и медийных СМИ, так и данные из ряда других источников: бюллетеней, каталогов, информационных публикаций официальных учреждений, адресно-справочных баз данных и статистических справочников. Среди клиентов компании крупные промышленные предприятия и частные лица, инвестиционные компании и банки, спецслужбы и органы власти, политические и аналитические структуры, СМИ и библиотеки, юридические, консультационные и PR-агентства.
Компания "Медиалогия" (http://www.mlg.ru) была создана в 2003 году. В базу данных круглосуточно поступают новости информагентств, газеты, журналы, транскрипты передач радио и телевидения, интернет-источники, блоги и т.д. С "Медиалогией" работают пресс-службы публичных коммерческих организаций и государственных учреждений.
Компания «Публичная Библиотека» (http://public.ru) развивает собственную базу данных материалов СМИ с 2000 года, предоставляет полный спектр услуг по работе с материалами масс-медиа: от онлайн-доступа к коллекции публикаций СМИ до мониторинга прессы и проведения эксклюзивных аналитических исследований на базе открытых источников. Среди клиентов библиотеки пресс-службы и аналитические подразделения коммерческих организаций и государственных учреждений, PR-компании и группы мониторинга СМИ, маркетинговые агентства и консалтинговые компании.
Информационно-поисковая система «СКАН» (http://scan.interfax.ru), аббревиатура которой расшифровывается как "Система комплексного анализа новостей" основана в 2007 году [3]. Ее основные технологические принципы были реализованы сотрудниками Международной информационной группы «Интерфакс» (Interfax Information Services), которая специализируется в создании информационных продуктов и средств коммуникации, служащих для принятия решений в политике и бизнесе. Поисковая база данных «СКАН» содержит полные тексты газетной и журнальной периодики, новости информационных агентств, материалы интернет-изданий, мониторинг прессы и теле-радиоэфира России, СНГ, Ближнего и Дальнего Зарубежья, включая архив новостных сообщений группы компаний «Интерфакс» с 1989 года, биографии общественных и политических деятелей, краткие сведения о компаниях.
База данных «СКАН» интегрирована с другими информационными системами «Интерфакса», в частности с базой данных «СПАРК», которая обеспечивает набор инструментов для сопоставления данных и проведения более глубокого исследования полученной информации, минимизирует или исключает погрешности анализа и принятия ошибочных решений. Она содержит систематизированную и структурированную информацию практически по всем зарегистрированным в России юридическим лицам, а также сведения о компаниях, включает в себя данные, предоставляемые Федеральной службой государственной статистики, Федеральной налоговой службой, Федеральной службой по финансовым рынкам и другими ведомствами. Обе базы данных дополняют друг друга, являются донорами по комплектованию (обмену) источников, поэтому создают информационную среду, которая максимально учитывает информационные потребности пользователей.
Основные категории пользователей базы данных "СКАН" – это руководство компаний, специалисты в области массовых коммуникаций, PR и информационно-аналитической деятельности, банков и банковского дела, инвестиций, маркетинга и средств массовой информации.
В нашем исследовании речь пойдет не столько об отличительных особенностях комплектования источников в приведенных выше поисковых базах данных СМИ, сколько о тех особенностях, которые их объединяют, так как для всех баз данных в целом характерна идентичность формирования фондов по типам и видам источников, их географическому, тематическому и хронологическому охвату, по методам сбора, обработки и хранения источников.
Под комплектованием также понимается совокупность последовательных и взаимосвязанных действий, направленных на выполнение задач по выявлению, оценке, отбору, заказу и приобретению источников в базу данных или приобретению прав доступа к ним. Такое общее определение комплектования обусловливает его деление на следующие подкатегории: вид, объект, политика, источник, способ и процесс комплектования [7].
Вид комплектования – это разновидность комплектования, выделенная на основе одного или нескольких признаков: текущее, ретроспективное, заочное и очное, и так называемое рекомплектование. Текущее подразумевает комплектование базы данных новыми источниками, ретроспективное – комплектование документов за прошлые года, рекомплектование означает исключение непрофильных источников. Критериями исключения источников могут быть: отсутствие ценности, старение, излишняя дублетность, низкая востребованность. Заочное комплектование основано на принципе заказов без предварительного просмотра и отбора источников комплектатором базы данных. Очное комплектование наоборот, основано на его личном просмотре и отборе источников.
Во всех перечисленных выше поисковых базах данных – "Интегрум" (http://integrum.ru), "Медиалогия" (http://www.mlg.ru), "Публичная библиотека" (http://public.ru) и "Система комплексного анализа новостей (СКАН)" (http://scan-interfax.ru) – значительное место занимает текущее комплектование, когда в режиме реального времени экспортируются новостные источники крупнейших информационных агентств ТАСС, РИА-Новости, Прайм, Росбизнесконсалтинг, Интерфакс, Росбалт, Финмаркет, включая новостные продукты региональных информационных агентств. Однако следует подчеркнуть, что не все базы данных имеют источники перечисленных выше информационных агентств в силу различных объективных и субъективных причин.
Существенной глубиной ретроспективных источников отличается база данных "СКАН", где информационные продукты агентства "Интерфакс" представлены с 1989 года, газета "Коммерсантъ" с глубиной архива с 1992 года – с первого пилотного номера, газета "Аргументы и факты" с 1985 года. С похожей глубиной ретроспективных источников представлены базы данных "Интегрум", "Медиалогия" и "Публичная библиотека". Но в силу конкуренции последние три агентства не содержат в своих фондах текущие и ретроспективные информационные продукты агентства "Интерфакс".
Заочное и очное комплектование свойственно всем поисковым базам данных СМИ. Однако здесь следует подчеркнуть, что заочное комплектование может нанести существенный вред базам данных, и наносит его, когда принцип заказа фактически без предварительного критического просмотра и отбора источников комплектатором не гарантирует их релевантности большинству пользователей. Часто заказ рассчитан на одного-двух пользователей и не распространяется на информационные потребности других потребителей в силу их иной профессиональной специализации. Рекомендованные таким образом источники могут насчитывать несколько сотен, а то и тысяч наименований, спрос на которые падает до нуля, если эта малочисленная категория пользователей отказывается от услуг базы данных или меняет свои информационные потребности. Таким образом, заказные источники нередко попадают под рекомплектование или оседают невостребованным грузом в базах данных СМИ, увеличивая их технологическую нагрузку. Чаще всего происходит последнее. В нашем случае рекомплектование в поисковых базах данных СМИ практикуется редко и носит вялотекущий характер. Возможно, что исключением является база данных СКАН, где за последние 10 лет было удалено около трех тысяч источников. Основным критерием исключения источников из базы данных являлась низкая потребность, излишняя дублетность, прекращение обновления или неоправданно высокие выплаты гонораров их правообладателям за получение авторских имущественных прав.
Объект комплектования подразумевает источник или группу источников, предназначенный для включения в поисковую базу данных. В первую очередь речь идет об источниках, прошедших редакционно-издательскую обработку и предназначенных для публичного доступа – это печатные, главным образом периодические издания в электронном виде. Далее электронные источники, которые представлены в графическом формате (изображения, фото) и аудио-видео. Также к объекту комплектования необходимо причислить сетевой электронный ресурс, который доступен через информационно-телекоммуникационные сети, в частности через Интернет [5, 8]. Средствами транспортировки таких источников могут служить электронная почта, FTP-адрес или RSS-канал. Все три перечисленных выше объекта комплектования широко представлены в поисковых базах данных СМИ, где преобладают сетевые ресурсы – материалы сайтов и блогов, интернет-газеты и интернет-журналы, транскрипты теле-радиоэфира, документы банков данных.
Политика комплектования – это стратегия, основанная на совокупности принципов и вытекающих из них критериев и методов деятельности по формированию и развитию поисковой базы данных. Тематический план комплектования (ТПК) является основным программным документом, определяющим политику формирования поисковой базы данных СМИ. В ТПК излагаются принципиальные основы комплектования базы данных, а также общие правила (критерии) отбора источников в БД. Целью создания плана является упорядочение отбора ресурсов, необходимых для удовлетворения информационных потребностей (ИП) пользователей базы данных. ТПК отражает количественную и качественную характеристики базы данных: тематику, виды и типы источников, географический и хронологический охват.
Изучение информационных потребностей (ИП) – это этап, предшествующий всем последующим действиям по целенаправленному комплектованию поисковой базы данных СМИ. Результаты исследования ИП являются основой создания тематического плана комплектования базы данных и определяют возможности качественного удовлетворения информационных потребностей пользователей.
В целях улучшения работы поисковой базы данных СМИ, совершенствования методики изучения информационных потребностей пользователей предпринимается немало попыток решить проблему типологической характеристики потребителей информации и, соответственно, определить их информационные потребности. В нашем случае для решения этой задачи используется совокупность признаков, образующих устойчивый тип потребителя и типы его информационных потребностей. Такими признаками могут служить тип и направление работы компании и служебное положение ее сотрудника, которое характеризует его деятельность (специализацию) [2].
Для всех исследований в области ИП характерно использование довольно разнообразной методологии. В целом определены следующие методы изучения ИП [1]:
- анализ какого-либо массива данных (анализ информационных запросов);
- метод подсчета библиографических ссылок;
- опрос (анкетирование, интервьюирование, беседа);
- наблюдение.
Анализ информационных запросов – наиболее часто используемый метод изучения ИП. Он позволяет выяснить предпочтение и частоту обращения пользователей информации к различным публикациям, тематическим и территориальным областям, хронологическим рамкам используемых источников.
Анализ информационных запросов пользователей решается главным образом на статистическом уровне (подсчет запросов), с одновременной количественной и качественной оценкой и обобщением полученных результатов, разработкой вытекающих из результатов выводов, рекомендаций и прогнозов. Как правило, на статистическом уровне выявляется частота обращения пользователей к видам источников, их территориальной и тематической принадлежности, а также частота обращения к источникам в зависимости от их периодичности.
Такую методику изучения информационных потребностей пользователей, которая служит ключом к составлению тематического плана комплектования БД, практикуют комплектаторы поисковой базы данных "СКАН", Например, результаты последнего исследования частоты обращения пользователей к видам источников показали, что наибольшей популярностью у подписчиков БД "СКАН" пользуются интернет-источники. За ними следуют новости информагентств и далее в порядке убывания газеты, ТВ и радио, дайджесты, журналы, бюллетени. И завершает этот рейтинг блоги, востребованность которых самая низкая. Объективность полученных данных в отношении потребностей пользователей в интернет-источниках, лентах информагентств и газетах подтверждается результатами, которые наблюдаются в частоте обращения пользователей к источникам в зависимости от их периодичности. Пользователи БД "СКАН" проявляют интерес к изданиям, чья периодичность представлена в режиме реального времени (on-line), ежедневно или еженедельно, что свойственно перечисленным выше источникам.
Частота обращения пользователей к типам источников выявила определенные потребности, которые с большой точностью определили закономерности. У пользователей базы данных "СКАН" наибольший спрос к центральной прессе (московские издания). Эту же строку рейтинга с относительно небольшим отрывом делят региональные СМИ. Далее в порядке убывания следует востребованность к федеральным изданиям. Мы наблюдаем закономерное явление, когда потребность пользователей в зарубежных изданиях является наиболее низкой. Последнее подтверждается результатами анализа частоты обращения пользователей к источникам с точки зрения их территориальной принадлежности Здесь высокая потребность в российских изданиях и, соответственно, эти данные подкрепляются востребованностью к московской прессе.
Если говорить о частоте обращения пользователей к источникам с точки зрения их географической принадлежности (страна), дополнительным и существенным подтверждением потребностей пользователей в российской прессе были получены в результатах их частоты обращения к изданиям Ближнего, Дальнего Зарубежья и России. Потребность пользователей БД "СКАН" в российских СМИ оказалась наиболее высокой. Это существенный отрыв от потребностей в источниках других стран. Лишь украинские издания заняли вторую строку. Потребность в источниках всех остальных стран довольно низкая. Вероятно, можно найти объяснение такому положению вещей, так как издания Ближнего и Дальнего зарубежья представлены не в тех объемах, что российская пресса. Кроме того, база данных СКАН развернута в сторону российских подписчиков.
Частота обращения пользователей к источникам с точки зрения их территориальной принадлежности (российские регионы) является продолжением статистических результатов, полученных выше. Самая высокая частота обращений приходится на московские издания. Можно предположить, что поскольку московская пресса, включая федеральную, освещает основные события, которые происходят в России, то обращение к ней позволяет удовлетворять основные информационные потребности пользователей
Важным моментом в этой статистики является потребность в тех источниках, чья территориальная принадлежность соответствует наиболее "хлебным", успешным с экономической точки зрения регионам, например, к прессе Красноярского края, Новосибирской области, Республики Татарстан, Свердловской и Томской области, Санкт-Петербурга.
Частота обращения пользователей к источникам в зависимости от их периодичности уже была затронута в начале исследования информационных потребностей пользователей. Здесь наблюдается четко очерченная пользователями БД "СКАН" потребность в тех изданиях, чья периодичность колеблется в диапазоне реального времени (On-line), ежедневно, несколько раз в неделю или еженедельно. К изданиям, выходящим ежемесячно потребность не высокая. Почти те же результаты относятся к источникам, которые выходят раз в год, или несколько раз в год, или эпизодически. Предполагаем, что пользователь, задавая перед поиском диапазон дат, часто не попадает на ту дату, которая соответствует изданию с редкой периодичностью. Кроме того, источники, выходящие раз в год или несколько раз в год носят скорее адресно-справочный или энциклопедический характер, чем событийный. Но это не означает, что данным источникам не место в базе данных "СКАН" – нет необходимости делать приоритеты этим источникам при комплектовании базы данных, злоупотребляя их количеством.
Частота обращения пользователей к источникам в зависимости от их тематической направлености показала, что у пользователей БД "СКАН" высокая потребность в общественно-политических изданиях. Эта категория изданий существенно перекрывает издания, относящиеся к любой другой тематике. На первый взгляд создается иллюзия, что у пользователей интерес к общественно-политической тематике. Однако в статистике наблюдается закономерность, которая перечеркивает эту иллюзию: превалирует интерес к экономическим темам в области бизнеса, предпринимательства, торговли, финансов, банковского дела и отраслевой информации. Практически все общественно-политические издания содержат полосы, посвященные экономике. Можно с уверенностью предполагать, что пользователь с такой интенсивностью обращается к общественно-политическим изданиям в поисках документов экономического характера и, безусловно, их находит. Следует отметить и высокую потребность пользователей в официальных изданиях – в изданиях государственного управления, официальных документах и изданиях в области законодательства.
Источник комплектования подразумевает физические и юридические лица, у которых приобретаются источники или права доступа для комплектования поисковой базы данных. Отсюда вытекает и способ комплектования, который определяется как метод взаимодействия комплектатора (получателя) с источником комплектования (правообладателем), обеспечивающий поступление источников во владение или для их использования на основе приобретения прав доступа к ним. Такая модель приобретения предполагает способ передачи документов во владение, в пользование с приобретением прав доступа.
Комплектование источников СМИ в обязательном порядке предусматривает соблюдение авторских имущественных прав. С каждым владельцем источников заключается авторский договор, по которому автор (правообладатель) обязуется передать авторское имущественное право на произведение, который в свою очередь обязуется использовать произведение, охраняемое авторским правом, в соответствии с условиями договора и уплачивать правообладателю установленное вознаграждение. Следует подчеркнуть, что получение источников СМИ от правообладателей на юридически чистых условиях гарантирует ответственность за достоверность. В Интернете, напротив, не редки случаи либо отсутствия автора, либо его отказа от ответственности за достоверность информации, что влечет за собой искажение сведений и дезинформацию [2]. Но существуют проблемы авторского права, когда возникают спорные ситуации и правовые пробелы, с которыми сталкиваются на практике правообладатели и получатели, и раскрываются имеющиеся недостатки в правовом регулировании отношений по поводу создания, использования и охраны объектов авторских прав. Такое положение, безусловно, сказывается на комплектовании поисковых баз данных СМИ.
Процесс комплектования включает в себя выявление источников/сбор сведений об источниках, оценка источников, тестовый доступ, отбор источников, проверка на дублетность, заказ источников, проверка на дефектность (техническое тестирование для последующей загрузки в БД), регистрация источников, исключение источников, проверка на обновление.
Выявление источников/сбор сведений означает поиск источников, необходимых базе данных, который осуществляется с использованием различной справочной информации или Интернета о вышедших в свет источниках.
Оценка источников – это процесс определения степени соответствия источника профилю комплектования для принятия решения об эффективности его приобретения или его нахождения в составе базы данных.
Тестовый доступ предполагает бесплатный доступ, предоставляемый владельцем (правообладателем) электронного ресурса на ограниченный период по запросу комплектатора, для оценки ресурса до его приобретения.
Отбор источников – определение соответствия источников профилю комплектования и целесообразности их приобретения в состав базы данных или хранения уже имеющихся источников в составе БД.
Проверка на дублетность – это проверка источников на наличие в составе базы данных во избежание дублетов при комплектовании.
Заказ источников предполагает оформление заявок (запроса) для поставщика на информационные продукты, которые необходимо приобрести.
Проверка на дефектность – это проверка источника с целью выявления его полноты, отсутствия производственных (технических) дефектов (формат, структура) или возможности воспроизведения (загрузка) источника программно–технологическими средствами в базу данных.
Регистрация источников – внесение сведений об источниках, предназначенных для хранения в базе данных и их поставщиках в подсистему БД. Сведения об источнике носят многосторонний характер – это присвоение номера идентификатора, номера договора, на основании которого источник передается от правообладателя, наименование источника, аннотация на него, тематика, вид, регион, аудитория, язык, учредитель, издатель, главный редактор, дата основания, периодичность, адрес, телефон, факс, e-mail, адрес сайта, логотип, тип транспортировки, формат данных, стоимость (размер гонорара) и срок обновления. Сведения о поставщиках также носят многоаспектный характер, которые включают в себя наименование поставщика, его контактные данные, юридический и фактический адрес, банковские реквизиты и пр.
Исключение источников предполагает отбор, изъятие из базы данных и снятие с учета регистрации непрофильных, устаревших источников, имеющих низкий уровень читательского спроса.
Обновление источников – это контроль за своевременным поступлением источников в базу данных. Как правило, он решается автоматизированными средствами мониторинга, в котором предусмотрен диапазон дат поступления источников, состояние поступлений (загруженные, опаздывающие, не пришедшие), календарь поступлений, который указывает поступление источника за конкретную дату и т.д.
Исходя из изложенного выше можно с уверенностью утверждать, что комплектование источников в поисковых базах данных СМИ носит характер многоаспектной селективности, с помощью которой можно определить, является ли целесообразным приобретение новых источников и есть ли необходимость в хранении уже имеющихся.
Основные положения комплектования источников в поисковых базах данных средств массовой информации – это совокупность последовательных и взаимосвязанных действий, направленных на выполнение задач по выявлению, оценке, отбору, заказу и приобретению источников в базу данных или приобретению прав доступа к ним.
Вид комплектования – это разновидность комплектования, выделенная на основе одного или нескольких признаков: текущее, ретроспективное, заочное и очное, и так называемое рекомплектование.
Объект комплектования подразумевает источник или группу источников, предназначенный для включения в поисковую базу данных.
Политика комплектования – это стратегия, основанная на совокупности принципов и вытекающих из них критериев и методов деятельности по формированию и развитию поисковой базы данных. Тематический план комплектования (ТПК) является основным программным документом, определяющим политику формирования поисковой базы данных СМИ.
Изучение информационных потребностей (ИП) – это этап, предшествующий всем последующим действиям по целенаправленному комплектованию поисковой базы данных СМИ. Для решения этой задачи, используется совокупность признаков, образующих устойчивый тип потребителя и типы его информационных потребностей. Признаками служат тип и направление работы компании и служебное положение ее сотрудника.
Анализ информационных запросов пользователей к БД – это наиболее часто используемый и наиболее эффективный метод изучения ИП. Он позволяет выяснить предпочтения и частоту обращения пользователей информации к различным источникам, тематическим и территориальным областям, хронологическим рамкам используемых источников.
Правообладатель подразумевает юридические и физические лица, у которых приобретаются источники или права доступа для комплектования поисковой базы данных. Отсюда вытекает и способ комплектования, который определяется как метод взаимодействия комплектатора (получателя) с источником комплектования (правообладателем). Данный метод обеспечивает поступление источников во владение или для их использования на основе приобретения прав доступа к ним.
Процесс комплектования – это деятельность, обеспечивающая реализацию политики комплектования. Он включает в себя выявление источников/сбор сведений об источниках, оценку источников, тестовый доступ, отбор источников, проверку на дублетность, заказ источников, проверку на дефектность (техническое тестирование для последующей загрузки в БД), регистрацию источников, исключение источников, проверку на обновление.
ЛИТЕРАТУРА: