Системы индексирования
Индексирование - процесс перевода текстов естественного языка на ИПЯ. Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ.
Система индексирования (СИ) - совокупность методов и средств перевода текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ. Помимо правил применения ИПЯ, система индексирования может включать большое разнообразие инструкций, положений, методов и т. д., регламентирующих те или иные этапы процесса индексирования. Существующие системы индексирования сильно отличаются друг от друга, и описать их общий состав и структуру не представляется возможным. Однако наличие общих признаков позволяет дать системное представление о классах систем индексирования.
Типы систем индексирования (СИ)
Рассмотрим технологию систем индексирования по пяти наиболее важным основаниям.
1. По степени автоматизации процесса индексирования можно различать системы:
а) ручного индексирования;
б) автоматического индексирования;
в) автоматизированного индексирования (распространены наиболее широко).
2. По степени контролируемости различают СИ:
а) без словаря (может быть факультативное использование словарей);
б) с жестким словарем;
в) со свободным словарем.
3. По характеру алгоритма отбора слов текста могут быть СИ:
а) с последовательным просмотром текста;
б) с эвристическими процедурами выбора слов текста;
в) со статистическими процедурами выбора слов.
В случае (а) отбираются все полнозначные слова, в случае (в) - только информативные слова в соответствии с распределением частот их употребления, в случае (б) слова отбираются интуитивно или по заданной процедуре.
4. По характеру лексикографического контроля существуют системы:
а) без лексикографического контроля;
б) с полным контролем;
в) с промежуточным контролем.
Лексикографический контроль предусматривает:
- устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;
- приведение всех слов к нормальному виду на основе морфологических нормативных словарей.
В системах с полным контролем реализуются обе функции лексикографического контроля. В СИ с промежуточным контролем эти функции реализуются частично.
5. По характеру морфологического анализа слов различают СИ с морфологическим анализом с использованием:
а) морфологических словарей;
б) основных лексических словарей;
в) морфологического анализа с усечением слов.
Возможны системы индексирования без морфологического анализа.
Примеры систем индексирования
Системы свободного индексирования. Процесс индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Такие слова он может брать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста.
Это СИ с ручным индексированием (1а), без словаря (2а), с эвристическими процедурами отбора слов (36), без лексиграфического контроля (4а) и морфологического анализа (5г). Формула такой СИ: 1а, 2а, 36, 4а, 5г.
Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка сравниваются со словарем, несовпадающие слова отбрасываются и в ПОД не включаются.
Формула такой СИ: 1а, 26, 36, 4а, 5г.
Системы жесткого индексирования. При этом слова выписываются только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь проводится его морфологическая нормализация на основе основных лексических словарей. Формула СИ: 1 а, 26, 36, 46, 56.
Системы статистического автокодирования.
Слова выбираются из текста позаданным статистическим процедурам, после чего проводится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики. Формула СИ: 1б, 2а, Зв, 4а, 5в. Примером такой системы является СИ "РИПСИМЕ-1".
Существует большое разнообразие СИ с другими формулами.
Морфологический анализ и нормализация понятий
Основные этапы процесса индексирования состоят в выборе понятий текста, отражающих его основное смысловое содержание, в морфологическом анализе и лексиграфическом контроле отобранных понятий и их кодировании.
Процедура отбора информативных понятий текста аналогична процессам выбора понятий при построении словарей основных лексических единиц.
Рассмотрим суть процедур морфологического анализа, лексиграфического контроля и кодирования понятий при использовании различных видов словарей.
Процедура морфологического анализа по морфологическим словарям состоит:
1) в определении обобщенного грамматического класса слова и его членении на основу и окончание (по словарям основ и окончаний);
2) в идентификации рода существительных (но основам слов);
3) в выявлении номера флексивного класса слов (по обобщенному грамматическому классу, признаку рода, окончанию, конечным буквосочетаниям основы);
4) в определении номера набора грамматической информации к слову.
Результатом такого анализа является нормализованное слово и номер набора его грамматической информации.
Кодирование нормализованных слов осуществляется путем их замены буквенными кодами или кодами слов. В первом случае оно состоит в замене каждой буквы слова соответствующим кодом данной буквы (по словарю кодов букв). Во втором случае - в отождествлении слов по словарю лексических единиц и замене их номерами или кодами словаря.
Декодирование слов, осуществляемое при выдаче результатов поиска, состоит в формировании буквенного кода слова (а затем и самого слова) по номеру или коду его нормализованной части и по номеру соответствующей грамматической информации.
При использовании словосочетаний процедура морфологического анализа существенно усложняется:
1. Отождествление слов словосочетания с элементами словаря слов. Замена их номерами по словарю. Сопровождение грамматической информацией.
2. Выявление грамматической структуры словосочетания в целом - синтаксический анализ (по грамматической информации слов словосочетания).
3. Поиск по словарю номера словосочетания, соответствующего данному сочетанию номеров слов и грамматической структуре кодируемого словосочетания.
4. Выбор из словаря по номеру словосочетания соответствующего ему номера грамматической структуры и самой структуры. Сравнение выбранной грамматической структуры с грамматической структурой кодируемого словосочетания, полученной на втором этапе.
Если структуры совпадают, то понятия тождественны. Анализируемое
словосочетание заменяется соответствующим ему номером или кодом. Два последних этапа являются этапами семантического анализа.
Декодирование словосочетаний представляет собой:
1. Выбор из словаря по номеру словосочетания соответствующего ему набора номеров слов и номера грамматической структуры.
2. Извлечение информации о формах слов и их связях, восстановление порядка слов в словосочетании (по грамматической структуре).
3. Формирование буквенного кода словосочетания и самого словосочетания.
Морфологический анализ по словарям основных лексических единиц включает два этапа: сравнение слова со словарем (идентификация и определение номера совпадающего понятия), выявление номера набора грамматической информации понятия. Кодирование понятий осуществляется буквенным кодом или кодами понятий (по словарю).
В современных ИПС широко применяется морфологический анализ путем усечения слов. При этом используются различные процедуры усечения:
а) с использованием словарей (основ, окончаний и т. д.);
б) без использования словарей (по простейшим априори заданным правилам);
в) статическое усечение слов с использованием аппарата позиционной статистики.
В случае (а) процедуры морфологического анализа, кодирования и декодирования те же, что и при использовании морфологических словарей. В случае (б) начала и/или окончания слов усекаются по определенным правилам. Усеченные части слов кодируются буквенными кодами. Декодирование отсутствует. В случае (в) при усечении слов используется аппарат и словари позиционной статистики. Слова кодируются буквенными кодами, а декодирование тоже отсутствует.
При усечении слов проводится только их нормализация и неморфологический анализ. Однако в целях единства описания систем индексирования и здесь целесообразно говорить о морфологическом анализе, имея в виду самую низшую (нулевую) степень такого анализа.
Еще по теме Системы индексирования:
- Философия науки. Ответы к экзамену, 2017
- Научное познание, его виды, уровни и формы. Общенаучные методы научного познания.
- Власть как общесоциологическая категория. Политическая (государственная) власть
- 8.2. Понятие и основные элементы системы права.
- Глава 2. ВИДЫ ИЗМЕНЕНИЯ УСЛОВИЙ ТРУДОВОГО ДОГОВОРА