研究課題/領域番号 |
15K00344
|
研究機関 | 大阪府立大学 |
研究代表者 |
野津 亮 大阪府立大学, 工学(系)研究科(研究院), 准教授 (40405345)
|
研究分担者 |
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 漸近最適戦略 / 強化学習 / 認知モデル / クラスタリング |
研究実績の概要 |
本研究では,1:漸近最適戦略や共クラスタリング技術を知的エージェントで効果的に利用すること,2:二つの技術を融合することで生まれる新しい学習アルゴリズムの有用性を示すことを大きな目標としている. 1については強化学習アルゴリズムとして,漸近最適戦略であるdiscounted UCB1-tunedを行動決定手法として適用することによって,報酬が学習環境中に分散して存在する場合にも報酬効率の最も良い行動が選択できることを確認した.これは学習速度を追求したときには従来の行動選択政策では達成できず,非常に効果的なアルゴリズムであることがわかった.これについて国内会議発表,国際会議発表を行った. 2については最適化問題に対してクラスタリングとUCTアルゴリズムを適用し,従来法と比較して初期探索の非常に優れた手法を開発した.開発した手法は最良解の値を探索することよりも,最良解がどの当たりにあるかを明らかにするもので,DEなどと比較すると,ノイズや環境の変化に強い学習アルゴリズムとなっている.これについても国内会議発表,国外会議発表,論文誌掲載などの研究発表を行うことができた. また,平成28年度の実施計画にしていた,マルチエージェントシミュレータを構築した. 電子地図情報から都市のモデルを構築し,シミュレータによって感染症の流行を観測することができた.従来のSIRモデルやSEIRモデルでは説明しにくいような現象である,二次流行や都市構造から生じる感染の不均一さを確認した.これについては一部国内会議発表を行っており,残りの部分については国内会議での発表を予定している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究は当初の計画以上に進展しており,平成28年度に予定していたマルチエージェントシミュレータについての研究発表を終わらせている. さらに,漸近最適戦略についても心理学的知見と相性良く組み合わせることができることがわかり,ベイズ推定とプロスペクト理論に基づいた新たな学習アルゴリズムを完成させた.実験を終え,2016年5月に論文投稿を行った. また,自己組織化マップによるクラスタリングが強化学習と相性の良いことがわかった(FAN論文賞(第25回 インテリジェント・システム・シンポジウム)を受賞)ので,さらに漸近最適戦略との関係性について検討,実験を進める.
|
今後の研究の推進方策 |
今後の研究方針としてはこれまでに提案してきた学習システムのより複雑で多様な環境での学習性能を明らかにし,どのような環境でも学習できるようなアルゴリズムに改良する.学習環境の多次元化,厳しい制約条件の追加などを当面の予定としている. さらに,これらの心理学的な意義について専門家と相談し,関連する心理学分野を研究調査して,論文投稿を積極的に検討する.
|
次年度使用額が生じた理由 |
投稿する英語論文について,和文投稿が可能であり平成27年度の英文添削の必要がなくなったため
|
次年度使用額の使用計画 |
平成28年度の英語論文の添削費用とする
|