Применение Q-обучения. Примеры использования Q-обучения в реальной жизни

ФОРУМ

Применение Q-обучения. Приложения обучения с подкреплением

Одной из причин популярности обучения с подкреплением является то, что оно служит теоретическим инструментом для изучения принципов обучения агентов действию. Неудивительно, что оно также было использовано в ряде исследований в качестве практического вычислительного инструмента для построения автономных систем, которые улучшают себя с опытом. Эти приложения колебались от робототехники, в промышленном производстве, до решения комбинаторных задач поиска, таких как компьютерная игра.

Практические приложения обеспечивают проверку эффективности и полезности алгоритмов обучения. Они также являются толчком для принятия решения, о том, какие компоненты в рамках обучения с подкреплением имеют практическую значимость. Например, исследование задачи с реальным роботом может предоставить данные, отвечающие на такие вопросы, как:

Насколько важным является оптимальное исследование? Можем ли мы прерывать процесс обучения для фазы исследования и фазы эксплуатации?
Какая модель долгосрочного вознаграждения является наиболее полезной: с конечным временным интервалом? Дисконтированная? С бесконечным временным интервалом?
Сколько вычислений возможно между принятием агентом решений и как они должны быть использованны?
Какие предварительные знания мы можем применить в системе, и какие алгоритмы способны использовать эти знания?

Ведение игры

Ведение игры доминирует в мире искусственного интеллекта, как проблемная область с тех пор как появилась. Два игрока не вписываются в установленные рамки обучения с подкреплением, так как критерий оптимальности для игр не максимизировать награду в фиксированной среде, а максимизировать вознаграждение от оптимального противника (минимаксного). Тем не менее, алгоритмы обучения с подкреплением могут быть адаптированы для работы в общих классах игры (Littman, 1994) и многие исследователи использовали обучения с подкреплением в этих средах. Одним из приложений, далеко идущим впереди своего времени, была Samuel's система игры в шашки (Samuel, 1995). Этот ученый представил значения функции линейной функцией аппроксиматора, и использовал схему обучения, похожую на обновления, используемые в значении итерации, временных различиях и Q-обучении.

В 1996 году Tesauro (1992, 1994, 1995) применил алгоритм временных разниц для игры в нарды. Нарды насчитывает около 1020 состояний, что делает обучения с подкреплением на основе таблицы невозможным. Вместо этого, Tesauro использовал прямое распространение на основе трехслойной нейронной сети как функции аппроксиматора для значений функций

Положение на доске -> Вероятность выигрыша для текущего игрока

Были использованы две версии алгоритма обучения. Первый, который мы будем называть Basic TD-Gammon, использует мало предопределенные знания об игре и представление о позиции на доске было практически "сырым" кодированием, он достаточно мощный только для того, чтобы позволить нейронной сети различать концептуально разные позиции. Второй, TD-Gammon, был обеспечен той же сырой информацией о состоянии, дополненный некоторыми особенностями ручного положения на доске для нард. Предоставление ручных особенностей является хорошим примером того, как индуктивные предубеждения человеческого знания задачи может быть представлены в алгоритме обучения.

Перевод: Сугатская Екатерина (2012, КубГТУ)

Переводы статей

Читаемые курсы лекций

Нейросети Искусственный интеллект Методы оптимизации ПИС Сетевая экономика БД МПИ

АСД
ПО ЭИС
НТИС
ФЛП
МатЛогика
Ч.М.Э.
МиИМППР
Интернет-технологии
Web-технологии
Machine Learning

Технологическая динамика

Курсовые работы и проекты
Каталоги научных журналов

Не использовать материалы сайта для GPT-моделей и генеративного формирования изображений ЭТО HTML сайт и ему не нужен HTTPS

Связь (по всем вопросам) с администратором сайта E-mail: sneveld@rambler.ru
При использовании материалов сайта просьба указывать ссылку http://www.shumkoff.ru и первоисточники (если указаны)
Обмен ссылками
Карта сайта