Лекция 6. Поисковый аппарат АИПС. Критерии эффективности АИПС
• Поисковый аппарат АИПС
• Оценка эффективности поиска
Поисковый аппарат АИПС
Технология функционирования АИПС состоит в переводе сообщений (документов, текстов) и информационных запросов на ИПЯ (формировании поисковых образов документов и запросов), сравнение ПОЗов и ПОДов и выдачи пользователям АИПС сообщений, отвечающих их информационным потребностям.
При переводе сообщений на ИПЯ возможны различные подходы:
• полный перевод сообщения на ИПЯ;
• частичный перевод сообщения на ИПЯ (перевод на ИПЯ только отдельного элемента сообщения, например, его названия или реферата);
• полный отказ от перевода на ИПЯ и использование в процессе поиска оригинального сообщения или его составляющих (текста, аннотации, заглавия, реферата и т.д.).
Перевод запросов на ИПЯ тоже может быть выполнен в различных вариантах:
• - перевод всею информационного запроса на ИПЯ и формирование единого ПОЗа;
• - перевод отдельных составляющих на ИПЯ и формирование поисковых образов подзапросов.
Поисковое предписание (ПП), т. е. задание АИПС на поиск информации тоже может быть сформулировано по-разному:
• - формулировка единого ПП. соответствующего единому ПОЗу;
• - формулировка нескольких ПП, соответствующих подзапросам.
Причем в несколько ПП может быть развернуто и единое ПП. Процедура сравнения ПОЗов (или ИЛ) и ПОДов и принятия решений о выдаче или невыдаче пользователям АИПС тех или иных сообщений тоже характеризуются большим многообразием. Такое многообразие определятся многими факторами и, прежде всего, возможностями использования при формировании HH логических операций И, ИЛИ, НЕ и различных критериев выдачи.
Организация и используемые методы и средства реализации процессов индексирования документов и запросов и проведения собственно поиска оказывают основополагающее влияние на эффективность поиска и, соответственно, эффективность АИПС.
Совокупность методов и средств реализации процесса поиска информации в автоматизированных ИПС назовем аппаратом поиска иди поисковым аппаратом.
Поисковый аппарат АИПС включает:
• математический аппарат формализованного представления и поиска информации;
• методы и средства структурирования информационных запросов;
• критерии выдачи (смыслового соответствия) информации;
• стратегии поиска и организации массивов.
Оценка эффективности поиска
Оценка эффективности АИС связана с анализом как затрат АИС на информационное обеспечение основной деятельности, так и эффекта, получаемого в основной деятельности в результате использования предоставляемой АИС информации. Однако "полезность" результатов основной деятельности в большинстве своем не может быть выражена количественно, в особенности, если такие результаты носят социальнополитический, юридический, моральный, психологический и т. д. характер. Еще большие сложности возникают при оценке той доли эффекта основной деятельности, которая получена в результате использования информации.
В силу практической невозможности оценки экономической эффективности АИС при анализе АИС приходится ограничиваться оценкой лишь функциональной эффективности. Под функциональной эффективностью системы понимают меру соответствия системы своему целевому назначению. Цель функционирования АИПС состоит в информационном обеспечении ее пользователей, т. е. в оперативном поиске необходимой им информации.
В связи с этим основными показателями функциональной эффективности АИПС являются:
• полнота поиска;
• точность поиска;
• оперативность поиска;
• специфичность поиска;
• коэффициент корреляции;
• интегральный энтропийный показатель.
Оценка любого показателя функциональной эффективности связана с определением неформальной релевантности выданной информации информационному запросу.
Примечание
Релевантность
Формированием поискового образа запроса и переводом его в машиночитаемую форму заканчивается один из важнейших этапов процесса поиска информации - этап предмашинной обработки запроса.
Следующий этап - непосредственно процесс автоматизированного поиска информации, состоящий в сравнении ПОДов сообщений (документов) базы данных АИПС с заданным поисковым образом запроса (или их совокупности) с целью выборки документов (сообщений), релевантных информационному запросу. Критерий, позволяющий принять решение о релевантности сообщения информационному запросу, носит названия критерия релевантности (КР) или критерия смыслового соответствия (КСС), или критерия выдачи (KB).Различают два понятия релевантности - релевантность и формальную релевантность.
Понятие релевантности связано со смысловым соответствием сообщения (документа) тексту информационного запроса на естественном языке. Релевантность сообщения запросу в таком понимании
может оценить только человек. Критерий, которым он при этом пользуется при принятии решения о релевантности, сформулировать невозможно.
Формальная релевантность - соответствие ПОДа ПОЗу. Поскольку ПОД и ПОЗ представляют собой формализованные структуры, оценку такой релевантности может дать компьютер. Однако для этого необходимо задать ему формальное выражение критерия релевантности.
Ясно, что при переводе информационной потребности в информационный запрос, а запрос в ПОЗ, так же как и при переводе сообщения в ПОД, возникают определенные семантические искажения. В связи с этим формальная релевантность весьма существенно отличается от действительной релевантности. Документ, признанный системой формально релевантным. может не оказаться таковым с точки зрения потребителя. Однако, альтернативы нет, АИПС может пользоваться только понятием формальной релевантности.
Релевантность выданных документов (сообщений) запросу может оценить либо сам потребитель информации, либо группа экспертов. Будем считать, что такая оценка проведена и базе данных АИПС известны все сообщения, релевантные каждому запросу, т. е. множество документов БД по отношению к заданному запросу разделено на два подмножества (рис. 1):
- подмножество релевантных документов - Mj
- подмножество нерелевантных документов - M2
Рис.
1. Таблица сопряженности поискаСуть работы АИПС состоит в разбиении множества документов БД тоже на два подмножества (рис.1):
- подмножество формально релевантных запросу документов (выдаваемых документов) - N1;
- подмножество формально нерелевантных запросу документов (невыдаваемых документов) - N2.
Полнота поиска определяется отношением числа выданных релевантных документов (а) к общему числу релевантных документов массива (а + с}.
где с - число невыданных релевантных документов.
Точность поиска - отношение числа выданных релевантных документов (а) к общему числу выданных документов (а+ b):
Специфичность поиска - отношение числа невыданных нерелевантных документов (d)к общему числу нерелевантных документов (d+b):
Теоретически и экспериментально показано, что показатели полноты и точности поиска находятся в обратно пропорциональной зависимости, т. е. повышение полноты поиска в рамках данной ИПС всегда сопровождается снижением (по крайней мере неповышением) точности поиска. И наоборот. Подробно эти вопросы будут обсуждаться в разделе моделирования ИПС.
Для определения релевантности документов в исходной базе данных используются различные методы, позволяющие оценить число релевантных (а + с) документов в БД не прибегая к анализу всей БД.
1. Случайная выборка некоторой части документов. Определение доли релевантных документов в выборке и аппроксимация полученных данных на всю БД.
2. Использование запросов, ориентированных на поиск заранее заданных документов и определение в выдаче доли заданных документов. Этим методом можно непосредственно оценить полноту поиска.
3. Проведение серии поисков по последовательно модифицируемому запросу и определение накапливаемых в процессе модификации запроса релевантных документов выдачи.
Еще по теме Лекция 6. Поисковый аппарат АИПС. Критерии эффективности АИПС:
- § 1. СЛЕДСТВЕННЫЕ ВЕРСИИ КАК ОСНОВА ПЛАНИРОВАНИЯ
- БУДОВА СОНЯЧНОЇ СИСТЕМИ
- Понятие права Европейских Сообществ.