2013 Fiscal Year Annual Research Report
環境モデル徒弟学習の抜本的高速化技術の開発と実用的対話システムのプロトタイプ構築
Project/Area Number |
25730128
|
Research Institution | The University of Tokyo |
Principal Investigator |
牧野 貴樹 東京大学, 生産技術研究所, 特任准教授 (20418651)
|
Project Period (FY) |
2013-04-01 – 2014-03-31
|
Keywords | 強化学習 / 逆強化学習 / 徒弟学習 / LUKE |
Research Abstract |
初年度の課題は、環境モデル徒弟学習を抜本的に高速化する技術を開発することであった。 環境モデル徒弟学習においては、部分観測マルコフ決定過程の最適解計算を多数回実行する必要があり、計算速度が非常に遅いため、実用的な問題に適用することが不可能であり、高速化が不可欠な問題となっていた。 本研究では、2つの手法、すなわち、方策の事後確率の列勾配計算による高速化と前回の解の再利用による高速化技術を開発し、実際に実装することで高速化を実現することができた。 本研究で開発した技術は、オープンソースソフトウェア LUKE として一般に公開した。また、人工知能学会全国大会などで発表した。
|