Сформулированную в п.3.1 задачу оценивания вне зависимости от топологии НС с позиций нейросетевого подхода можно рассматривать как задачу нахождения неизвестного и реализуемого с использованием нейронной сети отображения , с помощью которого определяется оценка
аналогично выражению (3.2), т.е.:
, (3.4)
где матрица определяет массив смещений и весовых коэффициентов НС. В качестве входа НС выступает вектор
, а выходом является вырабатываемая НС оценка
. В дальнейшем будем рассматривать задачу, в которой
, и будем использовать обозначения
,
.
Представим выражение (3.3) в виде
.
Принимая во внимание это выражение, оценку будем отыскивать с помощью линейной НС с единственным слоем нейронов, число которых совпадает с размерностью оцениваемого вектора
, а их функция активации, зависящая от скалярного аргумента
, представляет собой тождественное преобразование, т.е.
,
. Такую функцию называют также линейной активационной функцией.
Блок-схема, соответствующая такой НС, приведена на рис. 3.1. Здесь для удобства представления введен q-мерный вектор , совпадающий с
, т.е.
,
; и одинаковый для всех нейронов вход инициализации
. Следует обратить внимание, что количество нейронов совпадает с размерностью вектора состояния
, а число входов равно общему числу скалярных измерений
. Обычно
, что и принято при дальнейшем изложении. Скалярные выходы
сумматоров
определяются как
,
. При оценивании скаляра, т.е. при
, эта схема вырождается в линейный нейрон, так называемую адалину (adaptive line element-adaline). Поэтому в общем случае при
ее иногда называют мадалиной.
Рис. 3.1. Линейная однослойная НС (мадалина)
С учетом сказанного выражение для оценки, отыскиваемой с помощью нейронной сети, запишем в виде
, (3.5)
где –
-мерная матрица, включающая
-мерный вектор смещений
и
-мерную матрицу весовых коэффициентов
, в которой
–
-мерные векторы,
,
.
При оценивании случайных последовательностей с помощью НС на основе (3.5) будем полагать, что обучение НС проводится «с учителем», т.е. при использовании набора , в котором каждый вход
соответствует истинному значению вектора
,
, где
– количество пар данных, используемых при обучении. В качестве критерия обучения
выберем функцию вида:
, (3.6)
где ;
– оценка, вырабатываемая НС по измерениям
, соответствующим эталонной реализации
;
– матрица смещений и весов НС для момента времени
.
Интуитивно ясно, что оценка, определяемая с помощью НС вида (3.5), при ее предварительном обучении с использованием критерия (3.6) при увеличении будет стремиться к оптимальной в среднеквадратическом смысле оценке, задаваемой соотношением (3.3). Показать это достаточно просто. Действительно, предположим, что зафиксирована произвольная совместная плотность распределения
для векторов
и
. Тогда можно записать следующее соотношение:
. (3.7)
Пределы у многократных интегралов здесь не указываются в целях упрощения записи, но при этом они полагаются, равными .
Если и
для всех
распределены согласно
, то, в соответствии с методом Монте-Карло, можно записать:
.
Таким образом, нейросетевой алгоритм при фактически строится из условия минимизации критерия вида
,
совпадающего с критерием, используемым при построении оптимального алгоритма. Отсюда следует, что линейный алгоритм (3.5) должен совпадать с алгоритмом, оптимальным в классе линейных. Покажем это путем непосредственного доказательства.
Используя (3.5), критерий (3.6) представим в виде
. (3.8)
Найдем значения и
, минимизирующие это выражение. Продифференцируем (3.8) по
,
и приравняем производные нулю:
;
.
После несложных преобразований можем записать:
; (3.9)
, (3.10)
где
;
, (3.11)
;
.
Подставив (3.9) в (3.10), получим:
.
или
, (3.12)
где
; (3.13)
. (3.14)
Таким образом, в результате обучения НС (3.5) в соответствии с критерием (3.6) вектор смещений будет задаваться выражением (3.6), а матрица весовых коэффициентов
выражением (3.12), которое при невырожденности
может быть записано как:
. (3.15)
Отсюда следует, что оценка , получаемая по измерениям
с помощью НС (3.5), обученной согласно критерию (3.6), может быть представлена в виде:
, (3.16)
где ;
;
,
определяются уравнениями (3.11), (3.13), (3.14) и представляют собой выборочные значения математических ожиданий и соответствующих матриц ковариаций.
Выражения (3.16) и (3.3) совпадают по форме, что говорит о том, что НС (3.5) при соответствующем обучении в условиях, когда указанные выборочные значения близки к своим истинным значениям, обеспечивает нахождение оценки, близкой к оптимальной.
Полученный результат позволяет трактовать оптимальный в линейном классе алгоритм как нейронную сеть простейшего вида, обучаемую в соответствии с критерием (3.6).
С практической точки зрения этот результат может быть полезным в тех ситуациях, когда имеются большие массивы исходных данных, которые могут быть привлечены для обучения сети. В этом случае можно построить процедуру оценивания, не проводя предварительной идентификации свойств оцениваемых последовательностей.
При построении используемых в прикладных задачах алгоритмов оценивания важным представляется умение находить не только саму оценку, но и соответствующую ей расчетную характеристику точности. В качестве такой характеристики точности для оптимальной в среднеквадратическом смысле оценки может быть использована апостериорная матрица ковариаций ошибок вычисляемая с помощью следующего соотношения:
. (3.17)
Хотя при построении нейросетевого алгоритма не предполагалась выработка какой-либо характеристики точности оценивания, аналогичной матрице ковариаций
(3.17), ясно, что такая характеристика после обучения НС в принципе может быть рассчитана как
. (3.18)
Аналогично решается задача и для сглаживания , и для прогноза
.