Описанные выше многослойные сети сети сигмоидального типа с математической точки зрения выполняют аппроксимацию функции нескольких переменных X=RN во множество выходных переменных Y=RM. Поскольку сигмоидальная функция, играющая роль функции активации нейронов, имеет ненулевое значение на всем диапазоне входных данных, то в преобразовании сетью входных данных в выходные участвуют многие (если не все) ее нейроны. Вследствие этого аппроксимация сигмоидальными (и, естественно, линейными) нейронами называется глобальной аппроксимацией.
Радиальные сети строятся с использованием радиальных нейронов, функция активации которых имеет ненулевые значения только в окрестностях своего центра . Поэтому аппроксимация с помощью таких сетей называется локальной аппроксимацией.
Радиальная сеть имеет двухслойную структуру, первый слой составляют радиальные нейроны, выходной - один или несколько линейных. На рисунке представлена структурная схема радиальной сети с одним выходным нейроном.
Здесь fii(|X-Ci|) - функция активации i-ого радиального нейрона, называемая также базисной функцией.
Сеть выполняет аппроксимацию входных данных согласно выражению (для упрощения выкладок положим w0=0):
Задача обучения сети состоит в подборе таких значений L, Ci и wi, которые доставляют минимум целевой функции
Обозначим через G матрицу Грина, имеющую следующий вид:
fi(|X1-C1|) | ... | fi(|X1-CL|) |
fi(|X2-C1|) | ... | fi(|X2-CL|) |
. | . | . |
fi(|Xp-C1|) | ... | fi(|Xp-CL|) |
Если положить, что параметры радиальных функций известны, то решение задачи обучения эквивалентна решению системы линейных алгебраических уравнений
Вследствие прямоугольности матрицы G (как правило, p>>L) вектор весов W можно отыскать следующим образом
Использование в качестве аргумента радиальной функции эвклидовой нормы ставит задачу масштабирования компонентов входного вектора X. Эта задача решается путем ввода в определение эвклидовой метрики масштабных коэффициентов в виде матрицы Q:
Масштабирующая матрица в N-мерном пространстве имеет следующий вид:
q11 | q12 | ... | q1N |
q21 | q22 | ... | q2N |
. | . | . | |
qN1 | qN2 | ... | qNN |
Обозначим произведение QT*Q матрицей корреляцией B, тогда имеем
Если масштабирующая матрица Q имеет диагональный вид (а это наиболее часто встречающийся на практике случай), то
Как упоминалось ранее, чаще всего в качестве радиальной функции используется функция Гаусса, ее вариант без масштабирования переменных представлен ниже
Вариант функции Гаусса, использующий масштабирование матрицей Qi, связанной с i-ой базисной функцией, выглядит следующим образом [???]:
Процесс обучения радиальной сети распадается на два этапа:
При этом второй этап значительно проще первого, поскольку сводится к вычислению выражения W=G+*D, где основные вычислительные затраты - расчет псевдоинверсии матрицы Грина G.
Задача отыскания параметров радиальных функций Гаусса для всех нейронов первого слоя в свою очередь распадается на две подзадачи:
Понятно, что основными требованиями к расположению центров Ci в области определения входных данных X являются:
Именно этим требованиям отвечает решение по кластеризации данных, даваемое ИНС с самоорганизацией на основе конкуренции. Следовательно, алгоритмы обучения, используемые в этих сетях для отыскания усредненных векторов в кластерах данных, непосредственно применимы и в радиальных сетях для отыскания центров радиальных функций.
После определения местоположения всех центров радиальных функций Ci производится подбор параметров si, определяющих величину области охвата, в которой значение радиальной функции превышает пороговое значение e. Такой подбор должен обеспечить, с одной стороны, покрытие всего пространства входных данных и, с другой стороны, незначительность перекрытия соседних зон.
Проще всего в качестве значения si принять эвклидово расстояние от центра Ci до ближайшего соседа. Можно учитывать более широкое соседство, используя формулу
Гибридный алгоритм обучения радиальной сети реализуется чередованием пары шагов:
Перед началом обучения выбираются начальные значения центров и параметров ширины радиальных функций всех нейронов входного слоя.
На первом шаге при фиксированных параметрах радиальных функций определяется вектор весов выходного слоя по выражению
1 | fi1(X1) | fi2(X1) | ... | fiL(X1) |
1 | fi1(X2) | fi2(X2) | ... | fiL(X2) |
. | . | . | . | . |
1 | fi1(Xp) | fi2(Xp) | ... | fiL(Xp) |
На втором шаге при фиксированных значениях весов нейронов выходного слоя методом градиента корректируются значения параметров радиальных функций Ci и si. Для последующего изложения будем использовать диагональную форму масштабирующей матрицы Q. Это означает, что радиальная функция имеет вид
Подлежащая минимизации целевая функция имеет вид
В результате дифференцирования этой функции по параметрам радиальной функции имеем:
Для корректировки весов используются стандартные выражения:
Уточнением параметров радиальных функций завершается очередной цикл обучения. На практике выделенные шаги имет разную скорость сходимости: градиентное уточнение параметров радиальных функций много медленнее. Для исключения этой диспропорции один расчет весов выходного слоя сопровождается несколькими циклами уточнения параметров радиальных функций.
Основной проблемой при создании аппроксимирующих сетей является выбор количества базисных функций. Малое их количество увеличивает погрешность аппрксимации, а слишком большое - погрешность обощения. Подбор необходимого и достаточного количества нейронов зависит от многих факторов: размерность пространства входных данных, количество обучающих выборок и, самое главное, пространственная структура аппроксимируемой функции.
Для решения задачи определения размерности L входного слоя в радиальных сетях разработаны как формальные, так и эвристические методы. Ниже дается описание простого эвристического метода.
После предъявления очередной обучающей выборки Xk определяется эвклидово расстояние от нее до ближайшего центра радиальной функции Cw. Если это расстояние d(Xk,Cw) больше установленного порога ek, в сеть добавляется новый радиальный нейрон с центром в Xk, после чего сеть подвергается обычной процедуре обучения методом градиента. Процесс добавления нейронов завершается при достижении требуемой точности аппроксимации. Величина порога ek критически влияет на эффективность метода, обычно ek экспоненциально изменяется с течением циклов обучения от emax до emin. Основной недостаток метода - невозможность уменьшения количества радиальных нейронов.