3.2. Синтез алгоритмов нейросетевого оценивания

Сформулированную в п.3.1 задачу оценивания вне зависимости от топологии НС с позиций нейросетевого подхода можно рассматривать как задачу нахождения неизвестного и реализуемого с использованием нейронной сети отображения , с помощью которого определяется оценка  аналогично выражению (3.2), т.е.:

,                                                       (3.4)

где матрица  определяет массив смещений и весовых коэффициентов НС. В качестве входа НС выступает вектор , а выходом является вырабатываемая НС оценка . В дальнейшем будем рассматривать задачу, в которой , и будем использовать обозначения , .

Представим выражение (3.3) в виде

.

Принимая во внимание это выражение, оценку  будем отыскивать с помощью линейной НС с единственным слоем нейронов, число которых совпадает с размерностью оцениваемого вектора , а их функция активации, зависящая от скалярного аргумента , представляет собой тождественное преобразование, т.е. , . Такую функцию называют также линейной активационной функцией.

Блок-схема, соответствующая такой НС, приведена на рис. 3.1. Здесь для удобства представления введен q-мерный вектор , совпадающий с , т.е. , ; и одинаковый для всех нейронов вход инициализации . Следует обратить внимание, что количество нейронов совпадает с размерностью вектора состояния , а число входов равно общему числу скалярных измерений . Обычно , что и принято при дальнейшем изложении. Скалярные выходы  сумматоров  определяются как , . При оценивании скаляра, т.е. при , эта схема вырождается в линейный нейрон, так называемую адалину (adaptive line element-adaline). Поэтому в общем случае при  ее иногда называют мадалиной.

Рис. 3.1. Линейная однослойная НС (мадалина)

С учетом сказанного выражение для оценки, отыскиваемой с помощью нейронной сети, запишем в виде

,                                                     (3.5)

где -мерная матрица, включающая -мерный вектор смещений  и -мерную матрицу весовых коэффициентов , в которой -мерные векторы, , .

При оценивании случайных последовательностей с помощью НС на основе (3.5) будем полагать, что обучение НС проводится «с учителем», т.е. при использовании набора , в котором каждый вход  соответствует истинному значению вектора , , где  – количество пар данных, используемых при обучении. В качестве критерия обучения  выберем функцию вида:

,                                 (3.6)

где ; – оценка, вырабатываемая НС по измерениям , соответствующим эталонной реализации;  – матрица смещений и весов НС для момента времени .

Интуитивно ясно, что оценка, определяемая с помощью НС вида (3.5), при ее предварительном обучении с использованием критерия (3.6) при увеличении  будет стремиться к оптимальной в среднеквадратическом смысле оценке, задаваемой соотношением (3.3). Показать это достаточно просто. Действительно, предположим, что зафиксирована произвольная совместная плотность распределения  для векторов  и . Тогда можно записать следующее соотношение:

.       (3.7)

Пределы у многократных интегралов здесь не указываются в целях упрощения записи, но при этом они полагаются, равными .

Если  и  для всех  распределены согласно , то, в соответствии с методом Монте-Карло, можно записать:

.                    

Таким образом, нейросетевой алгоритм при  фактически строится из условия минимизации критерия вида

,                                              

совпадающего с критерием, используемым при построении оптимального алгоритма. Отсюда следует, что линейный алгоритм (3.5) должен совпадать с алгоритмом, оптимальным в классе линейных. Покажем это путем непосредственного доказательства.

Используя (3.5), критерий (3.6) представим в виде

.                                 (3.8)

Найдем значения  и , минимизирующие это выражение. Продифференцируем (3.8) по ,  и приравняем производные нулю:

;

.

После несложных преобразований можем записать:

;                                                       (3.9)

,                                      (3.10)

где

;     ,                                       (3.11)

;            .

Подставив (3.9) в (3.10), получим:

.

или

,                                                     (3.12)

где

;                                         (3.13)

.                                      (3.14)

Таким образом, в результате обучения НС (3.5) в соответствии с критерием (3.6) вектор смещений  будет задаваться выражением (3.6), а матрица весовых коэффициентов  выражением (3.12), которое при невырожденности  может быть записано как:

.                                                (3.15)

Отсюда следует, что оценка , получаемая по измерениям  с помощью НС (3.5), обученной согласно критерию (3.6), может быть представлена в виде:

,                                (3.16)

где ; ; ,  определяются уравнениями (3.11), (3.13), (3.14) и представляют собой выборочные значения математических ожиданий и соответствующих матриц ковариаций.

Выражения (3.16) и (3.3) совпадают по форме, что говорит о том, что НС (3.5) при соответствующем обучении в условиях, когда указанные выборочные значения близки к своим истинным значениям, обеспечивает нахождение оценки, близкой к оптимальной.

Полученный результат позволяет трактовать оптимальный в линейном классе алгоритм как нейронную сеть простейшего вида, обучаемую в соответствии с критерием (3.6).

С практической точки зрения этот результат может быть полезным в тех ситуациях, когда имеются большие массивы исходных данных, которые могут быть привлечены для обучения сети. В этом случае можно построить процедуру оценивания, не проводя предварительной идентификации свойств оцениваемых последовательностей.

При построении используемых в прикладных задачах алгоритмов оценивания важным представляется умение находить не только саму оценку, но и соответствующую ей расчетную характеристику точности. В качестве такой характеристики точности для оптимальной в среднеквадратическом смысле оценки может быть использована апостериорная матрица ковариаций ошибок вычисляемая с помощью следующего соотношения:

.                          (3.17)

Хотя при построении нейросетевого алгоритма не предполагалась выработка какой-либо характеристики точности оценивания, аналогичной матрице ковариаций

(3.17), ясно, что такая характеристика после обучения НС в принципе может быть рассчитана как

.                       (3.18)

Аналогично решается задача и для сглаживания , и для прогноза .