3.2. Синтез алгоритмов нейросетевого оценивания

Информатика и вычислительная техника / Интеллектуальные информационные системы / 3.2. Синтез алгоритмов нейросетевого оценивания

Сформулированную в п.3.1 задачу оценивания вне зависимости от топологии НС с позиций нейросетевого подхода можно рассматривать как задачу нахождения неизвестного и реализуемого с использованием нейронной сети отображения , с помощью которого определяется оценка аналогично выражению (3.2), т.е.:

, (3.4)

где матрица определяет массив смещений и весовых коэффициентов НС. В качестве входа НС выступает вектор , а выходом является вырабатываемая НС оценка . В дальнейшем будем рассматривать задачу, в которой , и будем использовать обозначения , .

Представим выражение (3.3) в виде

Принимая во внимание это выражение, оценку будем отыскивать с помощью линейной НС с единственным слоем нейронов, число которых совпадает с размерностью оцениваемого вектора , а их функция активации, зависящая от скалярного аргумента , представляет собой тождественное преобразование, т.е. , . Такую функцию называют также линейной активационной функцией.

Блок-схема, соответствующая такой НС, приведена на рис. 3.1. Здесь для удобства представления введен q-мерный вектор , совпадающий с , т.е. , ; и одинаковый для всех нейронов вход инициализации . Следует обратить внимание, что количество нейронов совпадает с размерностью вектора состояния , а число входов равно общему числу скалярных измерений . Обычно , что и принято при дальнейшем изложении. Скалярные выходы сумматоров определяются как , . При оценивании скаляра, т.е. при , эта схема вырождается в линейный нейрон, так называемую адалину (adaptive line element-adaline). Поэтому в общем случае при ее иногда называют мадалиной.

Рис. 3.1. Линейная однослойная НС (мадалина)

С учетом сказанного выражение для оценки, отыскиваемой с помощью нейронной сети, запишем в виде

, (3.5)

где – -мерная матрица, включающая -мерный вектор смещений и -мерную матрицу весовых коэффициентов , в которой –-мерные векторы, , .

При оценивании случайных последовательностей с помощью НС на основе (3.5) будем полагать, что обучение НС проводится «с учителем», т.е. при использовании набора , в котором каждый вход соответствует истинному значению вектора , , где – количество пар данных, используемых при обучении. В качестве критерия обучения выберем функцию вида:

, (3.6)

где ; – оценка, вырабатываемая НС по измерениям , соответствующим эталонной реализации; – матрица смещений и весов НС для момента времени .

Интуитивно ясно, что оценка, определяемая с помощью НС вида (3.5), при ее предварительном обучении с использованием критерия (3.6) при увеличении будет стремиться к оптимальной в среднеквадратическом смысле оценке, задаваемой соотношением (3.3). Показать это достаточно просто. Действительно, предположим, что зафиксирована произвольная совместная плотность распределения для векторов и . Тогда можно записать следующее соотношение:

. (3.7)

Пределы у многократных интегралов здесь не указываются в целях упрощения записи, но при этом они полагаются, равными .

Если и для всех распределены согласно , то, в соответствии с методом Монте-Карло, можно записать:

Таким образом, нейросетевой алгоритм при фактически строится из условия минимизации критерия вида

совпадающего с критерием, используемым при построении оптимального алгоритма. Отсюда следует, что линейный алгоритм (3.5) должен совпадать с алгоритмом, оптимальным в классе линейных. Покажем это путем непосредственного доказательства.

Используя (3.5), критерий (3.6) представим в виде

. (3.8)

Найдем значения и , минимизирующие это выражение. Продифференцируем (3.8) по , и приравняем производные нулю:

;

После несложных преобразований можем записать:

; (3.9)

, (3.10)

где

; , (3.11)

; .

Подставив (3.9) в (3.10), получим:

или

, (3.12)

где

; (3.13)

. (3.14)

Таким образом, в результате обучения НС (3.5) в соответствии с критерием (3.6) вектор смещений будет задаваться выражением (3.6), а матрица весовых коэффициентов выражением (3.12), которое при невырожденности может быть записано как:

. (3.15)

Отсюда следует, что оценка , получаемая по измерениям с помощью НС (3.5), обученной согласно критерию (3.6), может быть представлена в виде:

, (3.16)

где ; ; , определяются уравнениями (3.11), (3.13), (3.14) и представляют собой выборочные значения математических ожиданий и соответствующих матриц ковариаций.

Выражения (3.16) и (3.3) совпадают по форме, что говорит о том, что НС (3.5) при соответствующем обучении в условиях, когда указанные выборочные значения близки к своим истинным значениям, обеспечивает нахождение оценки, близкой к оптимальной.

Полученный результат позволяет трактовать оптимальный в линейном классе алгоритм как нейронную сеть простейшего вида, обучаемую в соответствии с критерием (3.6).

С практической точки зрения этот результат может быть полезным в тех ситуациях, когда имеются большие массивы исходных данных, которые могут быть привлечены для обучения сети. В этом случае можно построить процедуру оценивания, не проводя предварительной идентификации свойств оцениваемых последовательностей.

При построении используемых в прикладных задачах алгоритмов оценивания важным представляется умение находить не только саму оценку, но и соответствующую ей расчетную характеристику точности. В качестве такой характеристики точности для оптимальной в среднеквадратическом смысле оценки может быть использована апостериорная матрица ковариаций ошибок вычисляемая с помощью следующего соотношения:

. (3.17)

Хотя при построении нейросетевого алгоритма не предполагалась выработка какой-либо характеристики точности оценивания, аналогичной матрице ковариаций

(3.17), ясно, что такая характеристика после обучения НС в принципе может быть рассчитана как

. (3.18)

Аналогично решается задача и для сглаживания , и для прогноза .