6.3. Многозначность и методы ее устранения

Многозначность интерпретации — обычное явле­ние при понимании естественных языков и распозна­вании изображений и речи.

При понимании естественных языков большими проблемами становятся многозначность смысла слов, многозначность их подчиненности, многозначность местоимений в контексте и т. п. Как правило, устра­нение многозначности обеспечивается за счет более широкого контекста и семантических ограничений. При обработке изображений часто многозначна ин­терпретация элементов изображения (контуры, обла­сти и т. п.). В общем случае устранить многознач­ность помогают более широкие пространственные отношения и другие способы. Метод релаксации — это метод систематического устранения многозначно­сти при интерпретации изображений с помощью цик­лических операций. Этот метод объяснен ниже, в ка­честве знаний в нем используются локальные ограни­чения. Существуют дискретный и вероятностный методы релаксации.

Метод релаксации

На рис. 6.3 приведен пример расстановки меток, указывающих интерпретацию физического смысла линий (граней) многогранника.

Собственно метод релаксации — это метод численного решения дифференциальных уравнений в част­ных производных, но в середине 70-х гг. его стали использовать также для обработки и анализа изображе­ний. Распространив его на локальные ограничения, можно устранить многозначность интерпретации изо­бражения. Этот метод можно использовать не только в случае стандартного представления знаний (правила и т. п.) и механизма выводов, как в инженерии знаний, но и в других случаях, где необходимо устра­нение многозначности. Рассмотрим дискретный метод релаксации на примере интерпретации контурных ри­сунков.

Будем рассматривать выделение граней и получение контурного рисунка из черно-белого изображения многогранника, например из детского строительного набора. Одним из этапов распознавания предмета яв­ляется интерпретация физического смысла линий. Для каждой грани при этом можно указать, что она вы­пукла (помечена знаком «+»), вогнута (помечена знаком «—») или является граничной (помечена зна­ком →,

справа от стрелки — видимая поверхность)(рис. 6.3). Выберем самый простой случай и получим кон­туры прямоугольного параллелепипеда. Если ограни­читься многогранниками, в каждой вершине которых сходятся ровно три стороны, то можно точно перечис­лить все возможные физические типы вершин. На рис. 6.4, а показаны все случаи локальной интерпре­тации вершин. При локальном взгляде на вершину ее интерпретация многозначна, но ограниченна. Устра­нить многозначность можно путем согласования с со­седними вершинами.

Если в этом примере интерпретации контура рассмо­треть две соседние вершины, связанные гранью, то эта грань непременно должна иметь одну и ту же интерпретацию (метку). Следовательно, при интерпре­тации соседних вершин нужно отбрасывать интерпре­тацию, не удовлетворяющую этому условию. Проделаем это для всех соседних вершин (как параллель­ную обработку). Подобную операцию называют фильтрацией, на рис. 6.4, б представлена возможная интерпретация вершин после однократной фильт-ра­ции.

Число кандидатур на интерпретацию вершин со­кратилось, поэтому можно вновь повторить фильтра­цию, исключая интерпретации вершин, которые дают разные  грани   между  соседними  вершинами. На рис. 6.4, в — интерпретация вершин после трехкрат­ного применения фильтрации, больше число кандида­тур на интерпретацию сократить не удается, т. е. нельзя получить однозначный ответ. Итак, мы при­шли к четырем (правильным) интерпретациям, ука­занным на рис. 6.4, г. Выше дан конкретный пример дискретного метода релаксации — метода, который предусматривает устранение многозначности при ло­кальных ограничениях и выбор интерпретации через согласование ограничений в целом.

Модель доски объявлений

Рассмотрим модель доски объявлений на примере работы системы понимания речи — HEARSAY-II, раз­работанной в Университете Карнеги — Меллона. Примерно с вероятностью 90 % она может понимать связную речь в ограниченном диапазоне среди 1011 слов, относящихся к информатике и поиску лите­ратуры. Например, она может понимать вопросы типа

«В каких рефератах есть ссылки на теорию вычис­лений?»,

«Есть ли ссылки на Фейгенбаума и Фельдмана?»

и интерпретировать их до уровня создания команд для поиска в библиографической базе данных.

Рис. 6.4. Пример релаксации при интерпретации контурных рисунков

(начало): а – возможные локальные интерпретации вершин;

б – возможные интерпретации вершин после однократной фильтрации

Рис. 6.4. Пример метода релаксации при интерпретации контурных рисунков

(продолжение): в – возможные интерпретации вершин после трехкратной

фильтрации; г – четыре возможные интерпретации

Предусмотрено семь уровней понимания от аку­стических параметров звуковых волн до понимания смысла вопроса (рис. 6.5). На этом же рисунке ука­заны необходимые для этого знания, управление зна­ниями ведется через отдельные источники знаний (форма представления знаний — модули (типа пра­вил), состоящие из пар (блок условия—блок дей­ствия). Понимание осуществляется на основе данных низшего уровня с переходом к интерпретации на следующий уровень; интерпретация не всегда однознач­на и обычно генерируются несколько гипотез. Каждая гипотеза оценивается с использованием информации верхнего уровня, в результате остается одна гипотеза, которая считается правильной. К гипотезам добав­ляется оценка (число от 0 до 100), указывающая их достоверность, но эта оценка действует ad hoc. В конце концов, выбирая наиболее достоверную гипо­тезу на уровне фразы, извлекается смысл вопроса для поиска литературы.

Рис. 6.5. Структура знаний в системе понимания речи HEARSAY-II (знания распределены по источникам знаний, знак указывает место сопоставления данных в условиях, конец стрелки — место занесения действия). Источники знаний — набор модулей типа «условие—действие»

На рис. 6.5:

SEQ — преобразует речевые сигналы в дискретную форму, измеряет

параметры, образует сегменты.

РОМ — на основе сегментов создает гипотезу о слогах.

MOW — на основе слогов создает гипотезы о простых словах.

WORU-CTL — управляет числом гипотез, созданных модулем MOW.

WORD-SEQ — на основе гипотез о словах и грамматических правил создает

гипотезы о последовательности слов.

WORD-SEQ-CTL — управляет числом гипотез, созданных модулем WORD-

SEQ

PARSE — делает грамматический разбор последовательности слов, если все

верно, создает гипотезы о фразе.

PREDICT     — предсказывает слова, которые предшествуют или следуют за  фразой. 

VERIFY        — оценивает степень соответствия между гипотезой о сегментах и

                       парой связанных слов.

CONCAT     — на основе проверенных пар связанных слов создает ги­потезу о

                       фразе.

RPOL           — оценивает степень доверия другим гипотезам на основе информации

                        в гипотезах, созданных другими источниками.

STOP            — оценивает необходимость остановки процесса  (закон­чено ли пред-

                       ложение?) и выбирает гипотезу, которая считается наиболее верной.

SEOMANT  — интерпретирует смысл для системы поиска информации.

  Структура системы HEARSAY-II — это модель до­ски объявлений (рис. 6.6). Она представляет собой распределенную область данных, каждый источник знаний (ИЗ) обращается к соответствующим обла­стям доски объявлений, вносит гипотезы или дает им оценки в других областях.

Эту систему можно рассма­тривать как распределенную иерархическую высоко- уровневую продукционную систему. В принципе мож­но считать, что все источники знаний, действуя асин­хронно и параллельно, переписывают содержимое до­ски объявлений, что плохо поддается реализации на последовательных компьютерах. Поэтому предусмо­трен механизм управления, планирующий работу так, чтобы в первую очередь действовал источник знаний с высшим приоритетом (такой механизм аналогичен механизму списка заявок в программе AM, рассмо­тренной в разделе 6.2.). Модель доски объявлений, разработанная в системе HEARSAY-II, в дальнейшем предполагается

реализовать как систему представле­ния универсальных знаний. Она дает хороший эффект для согласованного устранения многозначности и не­четкости, возникающих на каждом этапе процесса по­нимания и интерпретации, с помощью знаний на раз­личных уровнях.