Реферат: Алгоритм обратного распространения ошибки для адаптивных сетей
Рассмотрим алгоритм обратного распространения ошибки для адаптивных сетей (рис.2.46). Напомним, что сеть имеет L слоев ( l =0,1,…,L) и l = 0 представляет входной слой. Слой l имеет N(l) вершин. Выходное значение вершины зависит от входных значений и параметров функции активации вершины. Обозначим выход -той вершины слоя как .
,
где — параметры функции активации -той вершины слоя .
Обучение методом обратного распространения ошибки в такой сети связано с настройкой параметров сети ( ) таким образом, чтобы ошибка на выходе была минимальной.
Предположим, что имеются P обучающих пар. Для входной обучающей пары p (p = 1,2,...,P) определим меру ошибки следующим образом:
, (2.23)
где
есть k-ая компонента вектора желаемого выхода для входного вектора p,
— k-ая компонента вектора реального выхода для входного вектора p, — число выходных вершин.
Введем сигнал ошибки, связанной с выходом -той вершиной слоя, как производную от меры ошибки:
Сигнал ошибки, связанной с выходом -той вершиной выходного слоя L, вычисляется как
Используя (2.23), имеем:
.
Сигнал ошибки, связанной с выходом -той вершины промежуточного слоя, зависит от сигнала ошибки (l+1) слоя и от производной функции активации нейронов слоя (l +1). Таким образом, сигнал ошибки может быть вычислен следующим образом:
(2.24)
Для процесса обучения, связанного с настройкой параметров сети, также будем использовать градиентный метод. Определим градиентный вектор как производную меры ошибки от параметров. Если — параметр функции активации -той вершины слоя, то, используя (2.24), то можем представить градиент ошибки по отношению к данному параметру как:
(2.25)
Далее, суммируя по всем обучающим парам, получим суммарную величину градиентов ошибки:
.
Теперь можем написать следующее правило обновления (обучения) параметров сети: на каждой следующей итерации алгоритма обучения добавлять к параметру его поправку в виде:
,
где 0 < η < 1 — множитель, задающий скорость обучения.