Искусственные нейронные сети

В данном учебном пособии в основном используются следующие соглашения о графическом представлении математических символов.

Скаляры обозначаются строчными наклонными буквами латинского алфавита, например, a, b, x, y, i, j, k.
Векторы обозначаются прописными наклонными буквами латинского алфавита, например, X, Y, V.
Матрицы и множества обозначаются прописными прямыми буквами латинского алфавита, например, W, H, A.
Верхний индекс (обычно это k) почти повсеместно обозначает номер обучающей выборки.
Длина вектора X относительно нормы m обозначается как |X|_m, а не традиционно с использованием двойных вертикальных линий.
Для обозначения частной производной используется символ д, например, дE(W)/дw_i.
Для обозначения суммирования по индексу i с пределами от 1 до N используется следующее обозначение: sum[i=1:N](...).
Для обозначения перемножения по индексу i с пределами от 1 до N используется следующее обозначение: prod[i=1:N](...).
Для обозначения интеграла по x используется следующее обозначение: int[x](...).

Для построения графиков использована утилита gnuplot (http://www.ucc.ie/gnuplot).

Содержание

Введение

Искусственные нейронные сети (ИНС) - сети, в качестве вершин которых выступают искусственные нейроны (ИН). ИНС осуществляет преобразование вектора входных сигналов (воздествий) X в вектор выходных сигналов Y. Интепретация векторов X и Y зависит от постановки решаемой задачи и предметной области. ИНС в настоящее рассматривается как грубая (первого приближения) модель мозга человека и других живых существ. ИНС нашли применение в следующих областях.

Класстеризация и классификация. ИНС способна на предъявленных ей "эталонных" векторах X выделить характеризующие их признаки, накопить их и использовать в дальнейшем для оценки степени близости вновь предъявляемых входных векторов к эталонным (классификация). Некоторые типы сетей могут самостоятельно выделить во множестве предъявляемых входных векторов X обособленные группы (кластеризация), определяемые "усредненными" векторами X^{^}.
Аппроксимация. ИНС дают возможность с любой требуемой точностью аппроксимировать нелинейную непрерывную функцию Y=f(X). Применительно к проблематике автоматизированного проектирования - это, в первую очередь, задача построения формальной математической модели объекта проектирования.
Прогнозирование. Нейронные сети с обратными связями (рекуррентные) способны предсказывать будущее состояние моделируемого объекта/процесса по его состоянию на K предыдущих шагах модельного времени и текущему воздействию X.

Основные достоинства ИНС состоят в следующем:

пусть грубая, но близость к структуре мозга живых существ, само существование которых говорит об эффективности такого подхода;
способность к адаптации (обучению и самообучению);
параллельная сущность обработки информации;
робастность (устойчивость к отдельным сбоям) в работе ИНС (данное свойство обеспечивается большим (огромным в реальных живых системах) количеством нейронов и связей между ними.

Освоение материала, посвященного ИНС, требует хороших знаний в области параметрической оптимизации (методов отыскания экстремумов целевой функции). В первую очередь это касается методов оптимизации первого порядка.

Основной строительный блок ИНС - искусственные нейроны. По этой причине рассмотрение материала начинается именно с них.

Искусственный нейрон

Считается, что ИН имитирует поведение реальной природной нервной клетки мозга. Упрощенное описание функционирования природного нейрона дано в приложении 1.

Обощенная схема i-ого нейрона представлена на рисунке.

Здесь X=[x₁, x₂, ..., x_N]^T - вектор входных сигналов (воздействий, синапсов (биолог.)) нейрона. x₀=1 - константный "псевдосигнал", называемый сигналом поляризации или, просто, поляризатором. В общем случае x_j - действительные числа, возможно, размерные, но чаще нормированные. Во многих моделях ИН x_j дискретны и могут принимать значения из множеств {0, 1} или {-1, 1}. В некоторых реализациях x_j - комплексные числа.

W_i=[w_i1, w_i2, ..., w_iN]^T - вектор весов входных сигналов i-ого нейрона (в общем случае, действительные числа). Веса входных сигналов используются для вычисления взвешенной суммы u_i входных сигналов i-ого ИН по формуле

u_i=sum[j=0:N](w_ij*x_j).

Вес w_ij для размерного входного сигнала x_j имеет обратную к нему размерность. Например, если x_j имеет размерность [кг], то размерность w_ij - [кг^-1].

Взвешенная сумма входных сигналов u_i служит аргументом функции активации ИН f(u_i), определяющей значение выходного сигнала y_i.

В простейших однослойных (без обратных связей и каскадов) сетях входные сигналы x_j нейрона - входные сигналы сети в целом, а выходные сигналы y_i нейрона - выходные сигналы сети в целом. В многослойных сетях роль входных сигналов x_j некоторых нейронов играют выходные сигналы y_i предыдущих слоев ИНС.

Как уже упоминалось ранее, одним из типичных назначений искусственных нейронов и сетей на их основе является классификация и распознавание векторов входных сигналов X. В такой задаче вычисленное по входному вектору X значение y_i определяет принадлежность входного вектора тому или иному i-му классу. Например, в качестве значений x_j входного вектора могут выступать биометрические данные пациента (температура тела, кровяное давление, концентрация красных кровяных телец в крови и т.п.), тогда выходной сигнал нейрона y_i может определять степень уверенности в наличии у пациента болезни H_i.

Понятно, что степень успеха в классификации отдельным ИН и сетью в целом зависит, в общем случае, от "правильности" подбора/назначения весовых коэффициентов w_ij и коэффициентов функции активации f(u_i). Однако, в практических ИНС, как правило, функции активации назначаются однократно и варьированию не подлежат. Таким образом объектом подбора служат только весовые коэффициенты w_ij.

Для отыскания наилучших с точки зрения решения задачи классификации входных векторов X значений элементов вектора W_i необходимо обучение ИН и ИНС в целом, предваряющее собственно этап классификации. Различают два основных режима обучения: "с учителем" и "без учителя". В первом случае, ИНС предъявляют набор пар векторов <X^k, D^k>, где k - номер пары в наборе (k=1, 2, ..., p). D^k=[d^k₁, ..., d^k_M]^T - k-ый вектор ожидаемых значений выходных сигналов нейронов (в количестве M), составляющих сеть. Для одиночного ИН M=1. Обучение с учителем предполагает априорное знание о принадлежности векторов входных сигналов различным классам.

Обучение без учителя предполагает предъявление сети ИН (отдельному ИН) "типичного" набора векторов входных сигналов X^k, k=1, 2, ..., p, при этом сеть (отдельный ИН) должна самостоятельно решить задачу кластеризации (определения количества классов и признаков принадлежности к ним).