研究課題/領域番号 |
25730150
|
研究種目 |
若手研究(B)
|
研究機関 | 東京電機大学 |
研究代表者 |
高橋 達二 東京電機大学, 理工学部, 助教 (00514514)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 強化学習 / 認知科学 / モンテカルロ木探索 / n本腕バンディット問題 |
研究概要 |
初年度であった2013年度は人間認知の適応的特性を実装した価値関数の提案 (1) と、さらに大規模コンピューティングの手始めとして強化学習システムへの応用 (2) を行った。(2)は二年目の2014年度に計画していたものである。 (1) LS モデルの導入と n 本腕バンディット問題での性能検証 人間の主要な認知バイアスを実装した価値関数である LS モデルに関し、それが図(着目事象)は合理性を持って詳細に、地(文脈となる他事象)は無構造・曖昧に捉える、いわば「局所的ベイジアン」の特性を実装していることを示し、その性質を3つの認知的特性「満足化 satisficing」、「相対評価」、「(プロスペクト理論的)リスク態度」に分析した。また、本研究の目的である大規模コンピューティングの最も基本的な例として、 n 本腕バンディット問題における LS の優れたパフォーマンスと(経験的)最適性を示す条件を明らかにした。この研究項目の結果は多岐にわたるが、国際誌・国際会議論文として出版し、また現在投稿中・執筆中である。 (2) LS の強化学習システムへの応用 (LS-Q) (1) で研究を進めたLS モデルについて、東京工科大学の浦上大輔助教との共同研究として、強化学習システムにおける価値関数としての適用を行った。具体的にはQ学習アルゴリズムの行動決定メカニズムとして非常に単純な付加を行う LS-Q アルゴリズムを提案した。タスクは大車輪運動を獲得させるロボット運動制御である。ここでは、決定論的(ただし非線形)な力学系上の制御を行うことになるが、状態の離散化・粗視化によりマルコフ性は失われている。ここで予備知識全くなしで、また報酬の与え方などに一切工夫を施すことなく、強化学習で適切な制御を行う。結果としては、LS-Qは状態の粗視・精細化の程度によらず、パラメータチューニングを不要として安定したパフォーマンスを示すことが分かった。本項目の研究に関してはBioSystems誌で出版した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
初年度の計画にあった価値関数の提案と n 本腕バンディット問題への適用については研究を完了し、国際誌論文と数本の国際会議論文として出版した他、現在投稿中の論文と執筆中の論文数本がある。また、2年目に予定していた強化学習への適用については既に BioSystems 誌で出版を行い、3年目の予定であったモンテカルロ木探索への適用については国内学会での発表を予定している。以上より当初の計画に比べて順調であると考える。
|
今後の研究の推進方策 |
研究計画では初年度にn本腕バンディット問題、次年度に強化学習、最終年度にモンテカルロ木探索への適用であったが、後二者で一般的な結果を得るには時間とリソースが必要であることもあり、可能な限り三項目を並列的に進めている。 また今後は、提案アルゴリズムのパフォーマンスについて最悪性能の下限などの証明が肝要であるため、LSモデルを RS モデル (自律的パラメータの固定) と pARIs ルール (極限操作) に単純化し、理論的解析を進める。
|
次年度の研究費の使用計画 |
旅費に関し、学会出席に関する調整のため。 別学会の出席の旅費として用いる予定である。
|