2012 Fiscal Year Annual Research Report
ファイナンスにおける時系列データ解析のための強化学習に関する研究
Project/Area Number |
23700182
|
Research Institution | Chubu University |
Principal Investigator |
松井 藤五郎 中部大学, 生命健康科学部, 講師 (90366443)
|
Keywords | 人工知能 / 機械学習 / 強化学習 |
Research Abstract |
本研究では,試行錯誤に基づく機械学習の枠組みである強化学習において,学習者(エージェント)が獲得する利益率(リターン)の複利効果を最大化する行動規則を学習する強化学習の枠組みである「複利型強化学習」の枠組みを開発した.複利型強化学習では,報酬の替わりに利益率を観測するマルコフ決定過程において,将来の利益率を二重指数関数を用いて割り引いたものから得られる割引複利利益率に基づいて,割引複利利益率の対数の期待値を最大化する.利益率を二重指数的に割り引くことによって,割引複利利益率の対数を従来の強化学習における指数的に割り引かれた報酬に基づく割引収益の期待値と同様に再帰的に表すことができる.複利型強化学習では,投資比率の概念を導入することによって学習が発散することを防いでいる.本研究では,オンライン勾配法を用いて複利型強化学習の投資比率を学習中に最適化する方法も開発した. 本研究では,開発した複利型強化学習の枠組みに合わせて,従来のQ学習,Sarsa,OnPSなどの強化学習アルゴリズムを複利型に拡張した.複利型強化学習の枠組みは,従来の強化学習の拡張であるため,従来の強化学習アルゴリズムを自然な形で複利型に拡張することができる. 本研究では,これらの複利型強化学習アルゴリズムをN本腕バンディット,ブラックジャック,国債銘柄選択,国債取引,株式取引などの問題に応用した.これらの実験によって,従来の強化学習が平均利益率は高いが複利効果が低い行動を学習するのに対し,複利型強化学習は平均利益率が低くても複利効果が高い行動を学習できることが確認できた.また,オンライン勾配法によって最適な投資比率を学習できることが確認できた.
|