Представление знаний в нейронных сетях

К вопросам представления знаний относятся следующие: какую информацию необходимо хранить и как эту информацию представить физически для ее последующего использования. Таким образом, исходя из самой природы знаний, способ их представления определяется поставленной целью. Относительно реальных приложений «интеллектуальных» систем можно утверждать, что успех решения зависит от хорошего представления знаний. Это касается и нейронных сетей, представляющих собой отдельный класс интеллектуальных систем. Форма представления входных сигналов может быть самой разной. Это приводит к тому, что разработка приемлемых нейросетевых решений становится творческим процессом.

Основной задачей нейронной сети является наилучшее обучение модели окружающего мира для решения поставленной задачи. Знания о мире включают два типа информации.

  1. Известное состояние окружающего мира, представленное имеющимися в наличии достоверными фактами. Такая информация называется априорной.
  2. Наблюдения за окружающим миром (измерения), полученные с помощью сенсоров, адаптированных для конкретных условий, в которых должна функционировать данная нейронная сеть. Обычно такие измерения в значительной мере зашумлены, что потенциально может стать источником ошибок. В любом случае измерения, полученные таким способом, формируют множество информации, примеры из которого используются для обучения нейронной сети.

Примеры могут быть маркированными и немаркированными. В маркированных примерах входному сигналу соответствует желаемый отклик. Немаркированные примеры состоят из нескольких различных реализаций одного входного сигнала. В любом случае набор примеров, будь то маркированных или нет, представляет собой знания об интересующей предметной области, на основании которых и проводится обучение нейронной сети.

Множество пар сигналов вход-выход, каждая из которых состоит из входного сигнала и соответствующего ему желаемого выхода, называют обучающими данными или обучающей выборкой нейронной сети. Для примера рассмотрим задачу распознавания цифр. В этой задаче входной сигнал (изображение) представляет собой матрицу, состоящую из черных и белых точек. Каждое изображение представляет одну из десяти рукописных цифр на белом фоне. Желаемым откликом сети нейронной сети является конкретная цифра, изображение которой подается в качестве входного сигнала. Обычно обучающая выборка состоит из большого числа рукописных цифр, что отражает ситуацию, которая может возникнуть в реальном мире. При наличии такого набора примеров нейронная сеть создается следующим образом.

  • Во-первых, выбирается соответствующая архитектура будущей нейронной сети, в которой размер входного слоя соответствует количеству пикселей на рисунке, а в выходном слое содержится десять нейронов, соответствующих цифрам. После этого выполняется настройка весовых коэффициентов нейронной сети на основе обучающего множества. Этот режим работы сети называется обучением.
  • Во-вторых, эффективность обучения нейронной сети проверяется (тестируется) на множестве примеров, отличных от использованных при обучении. При этом на вход сети подается изображение, для которого известен целевой выход сети. Эффективность обучения сети проверяется путем сравнения результатов распознавания с реальными цифрами. Этот этап работы нейронной сети называют обобщением (данный термин взят из психологии).

Здесь и кроется фундаментальное отличие между созданием нейронной сети и разработкой классических методов обработки информации для задач классификации. В последнем случае мы в первую очередь формулируем математическую модель исследуемой среды, верифицируем ее на реальных данных, а затем разрабатываем классификатор на основе этой модели. Создание нейронной сети основывается непосредственно на реальных данных, которые говорят сами за себя. Таким образом, нейронные сети не только реализуют полноценную модель среды, но и обеспечивают обработку данных.

Набор данных, используемый для обучения нейронной сети, должен содержать как положительные, так и отрицательные примеры. Например, в задаче пассивной эхо-локации положительные примеры включают сигналы, отраженные от интересующего объекта (например, подводной лодки). Однако в реальной среде на отклик радара влияют и морские объекты, случайно попавшие в зону сигнала. Чтобы понизить вероятность неверной трактовки сигнала, в множество примеров добавляют сигналы, полученные при отсутствии искомого объекта.

В нейронной сети заданной архитектуры знания об окружающей среде представляются множеством свободных параметров (т.е. синаптических весов и порогов) сети. Такая форма представления знаний соответствует самой природе нейронных сетей. Именно в ней кроется ключ эффективности нейросетевых моделей.

Вопрос представления знаний в нейронной сети является очень сложным. Тем не менее, можно выделить четыре общих правила.

Правило 1

Сходные входные сигналы от схожих классов должны формировать единое представление в нейронной сети. Исходя из этого, они должны быть классифицированы как принадлежащие к одной категории. Существует множество подходов к определению степени сходства входных сигналов. Обычно степень подобия определяется на основе Евклидова расстояния. Более подробно об Евклидовом расстоянии можно прочитать в статье «Мера расстояния».

Правило 2

Элементы, отнесенные к различным классам, должны иметь в нейронной сети как можно более отличные представления. Это правило прямо противоположно первому.

Правило 3

Если некоторое свойство имеет важное значение, то для его представления в нейронной сети необходимо использовать большое количество нейронов. Для примера рассмотрим задачу обнаружения радаром некоторого объекта (например, самолета) при наличии помех (вызванных отражением сигнала от посторонних объектов, таких как дома, деревья, облака и т.п.). Эффективность такой радарной системы измеряется двумя вероятностными величинами.

  • вероятность обнаружения – вероятность того, что при наличии объекта система его обнаружит.
  • вероятность ложной тревоги – вероятность того, что система определит наличие объекта, когда того на самом деле не существует.

Эти две величины называются также ошибками первого и второго рода соответственно.

В соответствии с критерием Неймана-Пирсона вероятность обнаружения должна быть максимальной, а вероятность ложной тревоги не должна превосходить некоторой заданной величины. В подобных приложениях очень важно, чтобы во входном сигнале содержалась информация о цели. Третье правило констатирует, что в процесс принятия решения о наличии цели в полученном сигнале должно быть вовлечено большое число нейронов. В любом случае увеличение количества нейронов повышает достоверность принятого решения и устойчивость к помехам.

Правило 4

В структуру нейронной сети должны быть встроены априорная информация и инварианты, что упрощает архитектуру сети и процесс ее обучения. Это правило играет особую роль, поскольку правильная конфигурация сети обеспечивает ее специализацию, что очень важно по следующим причинам.

  1. Биологические сети, обеспечивающие обработку зрительной и слуховой информации, сильно специализированы.
  2. Нейронная есть со специализированной структурой обычно включает значительно меньшее количество свободных параметров, которые нужно настраивать, чем полносвязная сеть. Из этого следует, что для обучения специализированной сети требуется меньше данных. При этом на обучение затрачивается меньше времени, и такая сеть обладает лучшей обобщающей способностью.
  3. Специализированные нейронные сети обладают большей пропускной способностью.
  4. Стоимость создания специализированных нейронных сетей сокращается, поскольку их размер существенно меньше размера полносвязных сетей.

Это интересно

Смотрите также