研究課題/領域番号 |
14J10453
|
研究機関 | 東京電機大学 |
研究代表者 |
甲野 佑 東京電機大学, 大学院先端科学技術研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2014-04-25 – 2016-03-31
|
キーワード | 強化学習 / 意思決定 / 対称性推論 |
研究実績の概要 |
本研究課題は人間の複雑ではあるが柔軟な学習能力を対称性推論という人間特有の推論形式に注目する事で,簡約化された人間の柔軟な学習能力の一面を強化学習アルゴリズムに反映させる事を目的としている.具体的には,Loosely Symmetric model(以下LS)という対称性推論による偏りを反映した価値関数のモデルを,強化学習課題一般に用いる事ができるよう拡張する事を目的としている.本研究の研究内容は,(A)既存の対称性推論モデル・アルゴリズムに対する問題の適用範囲を広くするような拡張と,(B)考案された対称性推論モデル・アルゴリズムがどの環境下でどのような保証を持つかの検証,に大別できる.以下では平成26年度中に得られた主な研究成果を挙げ,それらが前述した2種のどちらに分類されるかを簡潔に述べる. 平成26年度における本研究テーマの主な成果は,(1)LS-VRの改善モデルであるLSXの考案,(2)LSXを通じたLS系モデルと人間の認知特性の関連付け,(3)バンディット問題における人間の認知特性に関する利便性,(4)LSをベイジアンフィルタに実装,(5)LS系モデルにおける最適基準の条件とその動的な獲得手法の考案,になる.これらの成果のうち(A)に該当する成果が(1)である.また(B)に該当するのが(2),(3),(4)である. (5)は(A)と(B)の両方に該当する.近年の研究成果から対称性推論から導かれる人間の信念モデルとされたLS系モデルは価値関数として扱う事で,人間が意思決定時に行う満足化を効率的に遂行するアルゴリズムであると再解釈されつつある.本成果によって最適基準の近似値を如何にして動的に獲得すべきかについて,統計的な手法を用いてエージェントが自律的に獲得する手法を考案した.これによりLS系モデルが従来の統計的な手法より短い試行で良い成果が得られる事を示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的は,人間の認知性質のある側面を備えた強化学習アルゴリズムの考案にある.この研究目的に対して,本研究課題で用いる新たなアルゴリズムの考案という意味では,現時点で研究目的の8割程度が達成されている.平成27年度の発表になるため前述した研究実績では述べなかったが,前述の(1)~(5)の成果を受けて,『強化学習全般へ拡張したRLLSアルゴリズムの考案』を行い,国内学会へ投稿し採択された.後述する『今後の研究の推進方策』において詳細を述べるが,研究計画の遂行に必要とされる大きな課題はRLLSアルゴリズムの中で強化学習課題全般に用いる事ができる基準値の動的な獲得手法の考案のみである. ここでいう基準値とは,前述した人間の有する意思決定方策である満足化における基準を意味する.満足化とはある基準を超える選択肢を見つけようとする人間の意思決定傾向である.満足化の選択傾向は基準を超える選択肢を発見するまで探索し,発見したら探索を止める意思決定方策として記述されるが,具体的に強化学習に実装可能な満足化方策のアルゴリズムは広く知られていない.LS系モデルは価値関数として用いるだけで満足化の傾向が学習エージェントの意思決定に反映されるという特性を持つ.しかし既存の議論では,汎用的な基準の獲得手法について言及していない.つまりオンラインな学習の中での基準値の獲得手法は本研究の最も重要な課題である. また,前年度はこれらの新たな拡張モデルやアルゴリズムの考案に注力したため,各々の研究成果に対しては国内外の学会発表という形式で行ってきたが,統合的で詳細な説明という意味では不十分であった.今年度の課題はLSの拡張モデルに関する(1)~(5)からRLLSアルゴリズムを統合的に説明する研究発表を充実させる事にある. 以上の理由により,『(2)おおむね順調に進展している。』を現在までの達成度とした.
|
今後の研究の推進方策 |
平成26年度の研究成果をもとに本研究課題の最も大きな目的の一つである『LSを強化学習全般へ拡張したRLLSアルゴリズムの考案』について既に2015年度人工知能学会全国大会に投稿を行っている.この研究課題の遂行により本研究課題の申請当初の最大の問題であった,LS系モデルを一般的な強化学習で用いられる状態行動価値関数のような実数範囲の上で妥当に定義する事が可能となった. 未解決な問題としては投稿論文の段階では,動的な最適基準の獲得についての議論が行えていない事があげられる.最適基準とは前述した通り,LS系モデルが有する満足化傾向を最適化に近づけるための条件であり,最適基準の近似値の動的な獲得手法は,LS系アルゴリズムを実装されたエージェントが,如何なる未知環境におかれても自律的な行動獲得をするために必要不可欠な要素である.前述した(5)LS系モデルにおける最適基準の条件とその動的な獲得手法の考案,において申請者が考案した手法は一般的なN本腕バンディット問題にのみ適用できる.これは状態が多数かつ報酬の遅延を考慮していないためであり,状態が一つしかなく,即時的な報酬のみを扱うN本腕バンディット問題とは異なるアプローチが必要となると考えられる.今年度は以上の点について注力する. また,RLLSとは異なるアプローチとして,既に提案されているLSを利用した強化学習手法であるLS-Q Learningに関する満足化方策としての再解釈を合わせて行っている.これは間接的な形式で満足化を実装しており,両者の比較は満足化,対称性推論と強化学習との関係を明確化する事に寄与すると考えられる.平成27年度は申請者が考案した強化学習全般で定義可能な価値関数RLLSとそれに付随する動的な基準獲得のアルゴリズムの考案と検証と並行して,LS-Q Learningの改善とRLLSとの比較を行っていく予定である.
|