Страницы

понедельник, 7 февраля 2011 г.

Информационно-поисковый тезаурус


Задача построения тезауруса для контроля точек доступа в автоматизированных информационных системах (АИС), в том числе – для электронных библиотек, решается на основе сочетания двух методов: научной разработки структуры понятий и выявления лексического материала из представительного фонда документов с последующим дополнением его терминами из вспомогательных источников.

Данная  статья о тезаурусах посвящена принципам выбора и лексикографической обработки  слов и словосочетаний (т.е. лексических единиц) для тезаурусов.

Кроме традиционного «ручного» индексирования  текстов для АИС, существуют разнообразные формальные способы сбора лексики ИПТ путем программной обработки текстов с учётом   частотных характеристик, сочетаемости слов в них и т.д. Следует также упомянуть современные программные способы выбора и визуального представления ключевых слов для электронных текстов в форме так называемого «облака тегов» (т.е. меток – от англ. tag cloud). Как ни называй, это ни что иное, как картинка (в частности – трёхмерная) из ключевых слов для текстов, программно сформированная  с учетом частотных характеристик КС.
Ключевые слова, по изначальному замыслу, должны отображать наиболее существенную информацию. Понятие “существенности” информации при выборе КС является одним из основных и наиболее сложных понятий информатики. Многообразие возможных способовотбора информации по различным критериям существенности в силу субъективности принятия соответствующего решения обусловливает вариативность представления смыслового содержания текста при его индексировании.
Целесообразность включения КС в тезаурус обычно оценивается по нескольким факторам,  которые тесно взаимосвязаны между  собой:
- по важности данного КС для описания содержания соответствующего документа с точки зрения информационного поиска (важность определяется, например, по роли КС в тексте);
- по связям их с КС, отобранными ранее (выбор КС, обозначающих более широкие, узкие или ассоциативные понятия);
- по  их точности и приемлемости с точки зрения терминологической системы рассматриваемой области знания;
- по решению специалистов в данной области знания.
В качестве дополнительных источников лексики для ИПТ используются:  тезаурусы по родственной тематике, энциклопедические, толковые и терминологические  словари и справочники, учебники и руководства, монографии, терминологические и другие стандарты, таблицы классификаций; рубрикаторы и т.п.
Каким бы путём ни были выбраны КС для ИПТ, требуется их лексикографическая обработка:
- решение вопроса о разделении выделенного словосочетания из двух или более слов или сохранении его в качестве целостного КС;
- решение вопроса об использовании сложного слова в ка­честве КС или членении его на два ключевых слова;
- устранение омонимии и полисемии слов естественного языка различными методами;
- приведение слов и словосочетаний к необходимой грамматической форме, которая устанавливается стандартом на ИПТ и конкретной методикой в рамках  АИС.
Целесообразно включать в тезаурус целостные словосочетания в следующих случаях:
- существует синоним (или условный синоним) словосочетания (книжный знак – экслибрис), в том числе – общепринятая  аббревиатура  (автоматизированная  система управления – АСУ);
- значение словосочетания не выводится из значений его компонентов (железная дорога, детский сад, черный ящик, абсолютно черное тело -  устойчивые словосочетания);
- по крайней  мере, один  из компонентов словосочетания имеет в составе данного словосочетания или же некоторого семантического класса  словосочетаний единичное значение, т.е. не употребляется в составе других словосочетаний или употребляется несколько в другом смысле (например, торговля на вынос, свободное падение).
Также имеет смысл также вводить в ИПТ целиком:
- словосочетания, содержащие слова, имеющие слишком общее или широкое для данной тематической области значение,  но употребляющиеся в словосочетаниях в достаточно узком смысле (например,  линия,  техника,  устройство, система, дело, технический, работы, машина). Примеры: слесарное дело, техническая диагностика, бытовая техника, информационная система, земляные работы, строительные машины);
- наименования характеристик, показателей (например,  потребительские качества,  стилистическая окраска, летно-технические характеристики);
- наименования химических соединений (например, четыреххлористый  углерод, окись меди,  уксусная кислота, натрия хлорид – поваренная соль);
- словосочетания с именами собственными типа: таблица Менделеева,  теорема Ферма.
- наименования многих профессий (например,  мойщик посуды, техник по эксплуатации железных дорог).  При этом  слова  и  словосочетания, введенные в  наименование  профессии  вводятся в ИПТ и отдельно (например, посуда, железная дорога, эксплуатация, мойка);
- как правило, наименования отраслей, наук и других областей деятельности, теорий (художественная фотография, всеобщая история, зрелищные искусства, теория графов).
Словосочетания нередко сохраняются, если их разбиение на отдельные компоненты приводит к потере важных для поиска семантических связей, главным образом, не позволяет сформировать вышестоящий дескриптор для групп дескрипторов.  Пример: дескриптор спортивные суда как вышестоящий по отношению «род-вид» для дескрипторов скутеры, яхты, шверботы, байдарки).
Рекомендуется также, по возможности, не   включать в ИПТ многословные словосочетания. Во всех  остальных  случаях включение словосочетаний в ИПТ считается нецелесообразным.
Сложные слова преобразуются, если это возможно, в словосочетания, которые  рассматриваются  в общем порядке.  Если такое преобразование представляется неестественным в  терминологическом плане, сложное слово вводится в ИПТ в качестве КС.
Примерыавиатопливо = авиационное топливо = авиация, топливо, но: ампервольтметр, трубопровод, микробиология, биотехнология, фотоохота, фотомодель.
Вне зависимости от используемого метода выбора ключевых слов (или тегов) очевидно, чтоформирование семантических (смысловых) связей между лексическими единицами тезауруса представляет собой, в первую очередь, интеллектуальный процесс.


Комментариев нет:

Отправить комментарий