Тезисы научной конференции: "Использование OLAP технологий в Q-обучении" Шумков Е.А., Карнизьян Р.О.
// "Математические методы и информационные технологии в экономике, социологии и образовании". Сборник статей XXX Международной научно - технической конференции.
Ключевые слова: Q-обучение, OLAP, обучение с подкреплением, нейронные сети, ОЛАП, ОЛАП-кубы
В ряде задач решаемых с помощью Q-обучения в качестве состояния используется либо плоскость, либо трехмерное пространство. Например, перемещение робота -
это движение по поверхности земли, то есть по плоскости, так как в большинстве случаев третьей координатой (высотой) можно пренебречь. Для задачи автопилота
самолета используется трехмерное пространство. То есть видно, что для описания положения объекта управления необходим вектор размерностью больше единицы.
Если в описание состояния добавить другие параметры, например, скорость объекта управления, скорость ветра, оставшийся запас топлива и т.д., то размерность
вектора состояния увеличивается. То же самое можно сказать о векторе действия, который обычно одномерный, но в общем случае может быть составным, например,
для мобильного робота "опустить схват, повернуть на юго-запад и увеличить скорость на 5 км/ч". Увеличение размерности практически всегда приводит к
усложнению программной реализации модели. Для упрощения программной реализации мы предлагаем для Q-обучения использовать технологию OLAP (On-Line Analytical
Mining). Данная технология уже получила широкое распространение и OLAP расширения есть практически у всех современных СУБД. Использование OLAP в Q-обучении
с точки зрения разработчика дает неоценимые возможности использования всей мощи SQL и технологии OLAP, можно даже говорить о расширении возможностей
Q-обучения.
Таким образом, в качестве измерений OLAP-куба предлагается использовать переменные состояния и действия Q-обучения, а в качестве фактов OLAP-куба - накопленное подкрепление.
Также интересным моментом выглядит использование операторов roll-up и drill-down в следующем контексте. Предположим, что непрерывное пространство состояний
(т. е. большое) можно разбить на сектора различной степени укрупненности. Тогда мы можем считать подкрепление, полученное в каждом из секторов средствами
OLAP, то есть сворачивать и разворачивать пространство состояний и получать суммарное подкрепление в укрупненных и разукрупненных подпространствах.
Библиографическая ссылка на статью: Шумков Е.А., Карнизьян Р.О. Использование OLAP технологий в Q-обучении // "Математические методы и информационные технологии в экономике, социологии и образовании". Сборник статей XXX Международной научно - технической конференции. - Пенза: Приволжский Дом знаний. 2012. С. 125-126.
<< Предыдущая статья || Следующая статья >>
With best regards Shumkov Eugene
|