В процессе обучения многослойного персептрона с применением алгоритма обратного распространения ошибки ему многократно предъявляется предопределенное множество обучающих примеров. Один полный цикл предъявления полного набора примеров обучения называют эпохой. Процесс обучения проводится от эпохи к эпохе, пока синаптические веса и уровни порога не стабилизируются, а среднеквадратическая ошибка на всем обучающем множестве не сойдется к некоторому минимальному значению. Целесообразно случайным образом изменять порядок представления примеров обучения для разных эпох. Такой принцип предъявления образов делает поиск в пространстве весов стохастическим, предотвращая потенциальную возможность появления замкнутых циклов в процессе эволюции синаптических весов.
Алгоритм обратного распространения ошибки можно реализовать двумя способами.
Последовательный режим
Последовательный режим обучения на основе алгоритма обратного распространения ошибки также иногда называют стохастическим или интерактивным. В этом режиме корректировка весов проводится после подачи каждого примера. Это наиболее часто используемый режим. Сети предъявляется первый пример этой эпохи, после чего выполняются прямые и обратные вычисления. Т.е. проводится корректировка синаптических весов сети. После этого сети предъявляется вторая пара в эпохе, повторяются прямой и обратный проходы, приводящие к следующей коррекции синаптических весов. Этот процесс повторяется, пока сеть не завершит обработку последней обучающей пары данной эпохи
Пакетный режим
В пакетном режиме обучения на основе алгоритма обратного распространения ошибки корректировка весов проводится после подачи в сеть всех обучающих примеров одной эпохи
С точки зрения процессов реального времени, последовательный режим является более предпочтительным, чем пакетный, так как требует меньшего объема внутреннего хранилища для каждой синаптической связи. Более того, предъявляя обучающие примеры в случайном порядке (в процессе последовательной корректировки весов), поиск в пространстве весов можно сделать действительно стохастическим. Это, в свою очередь, сокращает до минимума возможность остановки алгоритма в точке какого-либо локального минимума.
Следует отметить, что стохастическая природа последовательного режима усложняет построение теоретического фундамента для нахождения условий сходимости алгоритма. В противовес этому использование пакетного режима обеспечивает гарантию сходимости алгоритма к локальному минимуму при довольно простых условиях. Стоит отметить, что в доказательстве сходимости лгоритма обратного распространения ошибки используется именно пакетный режим обучения. Помимо всего вышесказанного, в пакетном режиме легче распараллелить вычисления.
Если данные обучения являются избыточными (т.е. содержат по несколько копий одних и тех же примеров), то предпочтительнее использовать последовательный режим, так как примеры все равно подаются по одному. Это преимущество особенно заметно при больших наборах данных с высокой степенью избыточности.
В заключение можно сказать, что, несмотря, на многие недостатки последовательного режима алгоритма обратного распространения ошибки, он остается очень популярным (особенно при решении задач распознавания образов) по двум практическим причинам: этот алгоритм прост в реализации, и он обеспечивает эффективное решение сложных задач.