Применение Q-обучения. Приложения обучения с подкреплением
Одной из причин популярности обучения с подкреплением является то, что оно служит теоретическим инструментом для изучения принципов обучения агентов
действию. Неудивительно, что оно также было использовано в ряде исследований в качестве практического вычислительного инструмента для построения
автономных систем, которые улучшают себя с опытом. Эти приложения колебались от робототехники, в промышленном производстве, до решения комбинаторных задач
поиска, таких как компьютерная игра.
Практические приложения обеспечивают проверку эффективности и полезности алгоритмов обучения. Они также являются толчком для принятия решения, о том, какие
компоненты в рамках обучения с подкреплением имеют практическую значимость. Например, исследование задачи с реальным роботом может предоставить данные,
отвечающие на такие вопросы, как:
- Насколько важным является оптимальное исследование? Можем ли мы прерывать процесс обучения для фазы исследования и фазы эксплуатации?
- Какая модель долгосрочного вознаграждения является наиболее полезной: с конечным временным интервалом? Дисконтированная? С бесконечным временным интервалом?
- Сколько вычислений возможно между принятием агентом решений и как они должны быть использованны?
- Какие предварительные знания мы можем применить в системе, и какие алгоритмы способны использовать эти знания?
Ведение игры
Ведение игры доминирует в мире искусственного интеллекта, как проблемная область с тех пор как появилась. Два игрока не вписываются в установленные рамки
обучения с подкреплением, так как критерий оптимальности для игр не максимизировать награду в фиксированной среде, а максимизировать вознаграждение от
оптимального противника (минимаксного). Тем не менее, алгоритмы обучения с подкреплением могут быть адаптированы для работы в общих классах игры
(Littman, 1994) и многие исследователи использовали обучения с подкреплением в этих средах. Одним из приложений, далеко идущим впереди своего времени,
была Samuel's система игры в шашки (Samuel, 1995). Этот ученый представил значения функции линейной функцией аппроксиматора, и использовал схему обучения,
похожую на обновления, используемые в значении итерации, временных различиях и Q-обучении.
В 1996 году Tesauro (1992, 1994, 1995) применил алгоритм временных разниц для игры в нарды. Нарды насчитывает около 1020 состояний, что делает обучения с
подкреплением на основе таблицы невозможным. Вместо этого, Tesauro использовал прямое распространение на основе трехслойной нейронной сети как функции
аппроксиматора для значений функций
Положение на доске -> Вероятность выигрыша для текущего игрока
Были использованы две версии алгоритма обучения. Первый, который мы будем называть Basic TD-Gammon, использует мало предопределенные знания об игре и
представление о позиции на доске было практически "сырым" кодированием, он достаточно мощный только для того, чтобы позволить нейронной сети различать
концептуально разные позиции. Второй, TD-Gammon, был обеспечен той же сырой информацией о состоянии, дополненный некоторыми особенностями ручного положения
на доске для нард. Предоставление ручных особенностей является хорошим примером того, как индуктивные предубеждения человеческого знания задачи может быть
представлены в алгоритме обучения.
Перевод: Сугатская Екатерина (2012, КубГТУ)
|