Научная статья Шумков Е.А. 'Обощенная схема адаптивных критиков'
Политематический сетевой электронный научный журнал КубГТУ. №9, 2015
Ключевые слова: обучение с подкреплением, ошибка временной разности, адаптивный критик, Q - критик, V - критик, адаптивное поведение, нейросетевая топология управления, нейронная сеть
Применение топологий адаптивных критиков в настоящее время являются передовым методом при построении систем управления сложными объектами, действующих в
недетерминированной среде. Известно более десятка топологий адаптивных критиков, но ни одна из них не может быть принята, как универсальная. В статье
рассмотрены основные топологии адаптивных критиков Q - критик и V - критик, отмечены их достоинства и недостатки. Предложен обобщенный подход к
построению нейросетевой топологии адаптивного критика.
Адаптивные критики (англ. adaptive critic design - ACD) являются, пожалуй, самой распространенной, после Q - обучения, реализацией обучения с подкреплением
в текущее время. Они ведут свое начало с работы [6]. Отметим весомый вклад американского ученого советского происхождения Д. Прохорова [5]. В настоящее
время разработано целое семейство различных конструкций адаптивных критиков.
Адаптивные критики - это схемы управления, которые содержат специальный блок - Критик, который оценивает качество работы всей системы [3, 4]. Топология
адаптивного критика также содержит Агента (объект управления), который выполняет определенные действия в окружающей среде и тем самым взаимодействует
с ней. Обычно влияние агента на внешнюю среду не велико...
Полный текст статьи на сайте журнала КубГТУ
Библиографическая ссылка на статью:
<< Предыдущая статья || Следующая статья >>
Материалы по нейронным сетям здесь >>
|