Научная статья Ключко В.И., Шумков Е.А., Карнизьян Р.О. 'Нечеткий контроллер с правилами самомодификации'
Политематический сетевой электронный научный журнал КубГАУ. №9, 2013
Ключевые слова: ГИБРИДНАЯ НЕЙРОНЕЧЕТКАЯ СЕТЬ, НЕЙРОННАЯ СЕТЬ, ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ, ПОЛИТИКА САМООБУЧЕНИЯ, ANFIS, АДАПТИВНЫЙ КРИТИК
В настоящее время стали популярны реализации систем управления объектами на базе топологий с подкреплением [2], в частности все большее развитие получают
адаптивные критики [8,9], а также системы с различными реализациями Q - обучения [11]. При этом существует большое количество топологий на все случаи
жизни, как адаптивных критиков, так и систем на базе Q - обучения, в частности приведем следующий список: DHP, GDHP, ADHPD, ADGDHP, GIFACL, FACL,
Q - Хемминг, Dyna - Q, Q - Kohonen network, CMLP, HQ и т.д.[6, 8,9,10,11,12]. Каждая из топологий имеет свою область применения и нет ни
одной универсальной [2,6]. Также у каждой топологии имеется свои достоинства и недостатки. Одной из попыток создать универсальную топологию
для создания систем управления на основе обучения с подкреплением, является разработка нейросетевой топологии "Внутренний учитель" [2,3,6].
Рассмотрим дальнейшее развитие данной топологии.
Для топологии "Внутренний учитель" используются две основные компоненты - Решатель и Учитель. Подобную функциональную схему можно найти еще в
работе 1971 года [1]. Предложенная в [3] топология "Внутренний учитель" состоит из нескольких структурных компонент (см. Рисунок 1). Управляющая
компонента системы - "Решатель". Она получает вектор состояния объекта и среды и формирует на выходе управляющий вектор. Вектор состояния среды
формируется сенсорной компонентой. Вектор управляющего воздействия отрабатывает моторная компонента. Наиболее важная часть системы - "Учитель",
компонента обучения. Компонента обучения оценивает состояние среды на предмет изменения характера воздействия на объект, и если это имеет место быть,
то Учитель вмешивается в управление, перенастраивая правила управления или же вообще изменяя их. При этом Учитель в режиме первоначального обучения
формирует специального вида управляющие воздействия, позволяющие быстро и полно изучить среду. Таким способом система управления (далее СУ) на базе
данной топологии меняет стратегию управления. На вход Учитель получает данные обратной связи от внешней среды и историю управления объекта управления.
Полный текст статьи на сайте журнала КубГАУ
Библиографическая ссылка на статью:
<< Предыдущая статья || Следующая статья >>
|