Обучение с подкреплением. Основные положения обучения с подкреплением
Метод обучения с подкреплением - это самостоятельное серьезное направление кибернетических исследований. Обучение с подкреплением используется в различных
областях науки - искусственном интеллекте, психологии, искусственных нейронных сетях, теории управления, исследовании операций и т. д. Достоинство этого метода - его сравнительная простота: наблюдаются действия обучаемого объекта и в зависимости от результата поощряют,
либо наказывают данный объект. Т.е. учитель поступает с обучаемым объектом примитивно: "бьет кнутом" (если действия объекта ему не нравятся),
либо "дает пряник" (в противоположном случае), не объясняя обучаемому объекту, как именно нужно действовать. Подчеркнем, что здесь роль учителя может
играть внешняя среда. В этом методе, как и в классифицирующих системах, большое внимание уделяется поощрению/наказанию не только текущих действий,
которые непосредственно привели к положительному/отрицательному результату, но и тех действий, которые предшествовали текущим.
Основные принципы обучения с подкреплением: обучение через взаимодействие; целенаправленное обучение; обучение через взаимодействие с окружающей средой
Функция подкрепления - определяет цель в процессе обучения с подкреплением. Это соответствие между воспринимаемыми состояниями
(или парами состояние-действие) среды и числом, подкреплением, показывающим присущую желательность состояния. Единственная цель агента состоит в
максимизации итогового подкрепления, которое тот получает в процессе длительной работы. Функция отражает и определяет существо проблемы управления для агента.
Она может быть использована как базис для изменения правил. Например, если выбранное действие повлекло за собой низкое подкрепление, правила могут быть
изменены для того, чтобы в следующий раз выбрать другое действие. В общем случае, функция подкрепления может быть стохастической.
Функция оценки - показывает, что есть хорошо в продолжительный период, тогда как функция подкрепления показывает, что есть хорошо в текущий момент.
Грубо говоря, оценка состояния это итоговое подкрепление агента, которое предположительно может быть накоплено при последующих стартах из этого состояния.
В то время как подкрепление определяет прямую, характерную желательность состояния окружения, оценки показывают долгосрочную желательность состояний после
принятия во внимания состояний, которые последуют за текущим, и подкреплений, соответствующих этим состояниям. Например, состояние может повлечь низкое
непосредственное подкрепление, но имеет высокую оценку, потому как за ним регулярно следуют другие состояние, которые приносят высокие подкрепления.
Метод временной разности
Одной из наиболее важных современных идей в обучении с подкреплением является обучение на основе временной разности (TD - Temporal-Difference).
Часто это направление называют TD-обучение.
Суть TD-обучения в следующем. Если другие методы, например, Монте-Карло ждут момента, когда станет известна выгода от посещения определнного состояния, а затем используют
эту оценку как целевое значение, то метод временной разности. Методу временной разности (а их несколько разновидностей), необходимо ждать только следующей итерации.
ПРи этом непосредственно в момент времени (t+1) формируется целевое значение оценки, после чего производится необходимая корректировка с учетом уже имеющегося
вознаграждения r(t+1) и оценки V(St+1)
Основная литература по обучению с подкреплением (на русском)
- Саттон Р., Барто Э. "Обучение с подкреплением". М.: БИНОМ. 2012
- Ключко В.И., Власенко А.В., Стасевич В.П., Шумков Е.А. "Нейросетевые топологии с подкреплением". Краснодар: изд-во КубГТУ. 2012
-
-
Основная литература по обучению с подкреплением (на английском)
SNARK - Stochastic Neural-Analog Reinforcement Calculation - стохастические нейро-аналоговые калькуляторы с подкреплением. // Марвин Мински PhD Thesis 1954
Основные российские ученые занимающиеся обучением с подкреплением: Редько и Мосалов. Скромно упомяну и себя:)
Интернет - ресурсы по обучению с подкреплением
Некоторые определения, относящиеся к обучению с подкреплением
Терминальное состояние - конечное состояние объекта управления, после которого идет возврат к обычному начальному состоянию или к выборке из стандартного распределения начальных состояний.
(из чьей-то статьи...)
Чемпионат Европы по прыжкам в воду 2015
|