Лекция: Теоретические основы построения и обучения нейронных сетей.

Многие задачи распознавания образов (зрительных, речевых), выполнения функциональных преобразований при обработке сигналов, управления, прогнозирования, идентификации сложных систем, сводятся к следующей математической постановке. Необходимо построить такое отображение Х ® У, чтобы на каждый возможный входной сигнал Х формировался правильный выходной сигнал У. Отображение задается конечным набором пар(<вход>, <известный выход>). Число этих пар (обучающих примеров) существенно меньше общего

числа возможных сочетаний значений входных и выходных сигналов. Совокупность всех обучающих примеров носит название обучающей выборки.

В задачах распознавания образов Х — некоторое представление образа (изображение, вектор), У — номер класса, к которому принадлежит входной образ.

В задачах управления X — набор контролируемых параметров управляемого объекта, У — код, определяющий управляющее воздействие, соответствующее текущим значениям контролируемых параметров.

В задачах прогнозирования в качестве входных сигналов используются временные ряды, представляющие значения прогнозируемых переменных на некотором интервале времени. Выходной сигнал — множество переменных, являющихся подмножеством переменных входного сигнала, но на будущих интервалах времени.

При идентификации Х и У представляют входные и выходные сигналы системы соответственно. Вообще говоря, большая часть прикладных задач может 5ыть сведена к реализации некоторого сложного функционального многомерного преобразования.

В результате отображения Х ® У необходимо обеспечить формирование правильных выходных сигналов в соответствии:

• со всеми примерами обучающей выборки;

• со всеми возможными входными сигналами, которые не вошли в обучающую выборку.

Второе требование в значительной степени усложняет задачу формирования обучающей выборки. В общем виде эта задача в настоящее время еще не решена, однако во всех известных случаях может быть найдено частное решение.

Построить многомерное отображение Х ® У — это значит представить его с помощью математических операций над не более, чем двумя переменными.

В результате многолетней научной полемики между А. Н. Колмогоровым и В. И. Арнольдом был получен ряд важных теоретических результатов:

• теорема о возможности представления непрерывных функций нескольких переменных суперпозициями непрерывных функций меньшего числа переменных (1956 г.);

• теорема о представлении любой непрерывной функции трех переменных в виде суммы функций не более двух переменных(1957 г);

• теорема о представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения (1957 г).

Теорема о представлении непрерывных функций нескольких переменных в виде суперпозиций непрерывных функций одного переменного и сложения в 1987 году была переложена Хехт-Нильсеном для нейронных сетей.

Теорема Хехт-Нильсена доказывает представимость функции многих переменных достаточно общего вида с помощью двухслойной нейронной сети с прямыми полными связями с n нейронами входного слоя, (2n+1) нейронами скрытого слоя с заранее известными ограниченными функциями активации (например, сигмоидальными) и m нейронами выходного слоя с неизвестными функциями активации.

Следствие 1. Из теоремы Хехт-Нильсена следует представимость любой многомерной функции нескольких переменных с помощью нейронной сети фиксированной размерности. Неизвестными остаются следующие характеристики функций активации

нейронов:

• ограничения области значений (координаты асимптот) сигмоидальных функций активации нейронов скрытого слоя;

• наклон сигмоидальных функций активации;

• вид функций активации нейронов выходного слоя.

Следствие 2. Для любого множества пар (Хk, Уk) (где Уk — скаляр) существует двухслойная однородная (с одинаковыми функциями активации) нейронная сеть первого порядка с последовательными связями и с конечным числом нейронов, которая выполняет отображение Х ® У, выдавая на каждый входной сигнал Хk правильный выходной сигнал Уk. Нейроны в такой двухслойной нейронной сети должны иметь сигмоидальные передаточные функции.

К сожалению, эта теорема не конструктивна. В ней не заложена методика определения числа нейронов в сети для некоторой конкретной обучающей выборки.

Для многих задач единичной размерности выходного сигналa недостаточно. Необходимо иметь возможность строить с помощью нейронных сетей функции Х ® У, где У имеет произвольную размерность. Следующее утверждение является теоретической

основой для построения таких функций на базе однородных нейронных сетей.

Утверждение. Для любого множества пар входных — выходных векторов произвольной размерности {(Хk, Уk), k = 1...N}cсуществует однородная двухслойная нейронная сеть с последовательными связями, с сигмоидальными передаточными функциями и с конечным числом нейронов, которая для каждого входного вектopa Хk формирует соответствующий ему выходной вектор Уk.

Таким образом, для представления многомерных функций многих переменных Х может быть использована однородная двухслойная нейронная сеть с сигмоидальными передаточными функциями.

Для оценки числа нейронов в скрытых слоях однородных нейронных сетей можно воспользоваться формулой для оценки необходимого числа синаптических весов Lw в многослойной сети с сигмоидальными передаточными функциями:

mN

<= Lw<=m× N +1 (n+m+1)+m,

1+log2N m

гдe n — размерность входного сигнала, m — размерность выходного сигнала, N — число элементов обучающей выборки.

Оценив необходимое число весов, можно рассчитать число нейронов в скрытых слоях. Например, для двухслойной сети это число составит:

Lw

L =,

n+m

Точно так же можно рассчитать число нейронов в сетях с большим числом слоёв.

Приведённые выше теоретические результаты можно обобщить с помощью теоремы о полноте.

еще рефераты
Еще работы по информатике