研究課題/領域番号 |
15K00344
|
研究機関 | 大阪府立大学 |
研究代表者 |
野津 亮 大阪府立大学, 人間社会システム科学研究科, 准教授 (40405345)
|
研究分担者 |
本多 克宏 大阪府立大学, 工学(系)研究科(研究院), 教授 (80332964)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | 漸近最適戦略 / 強化学習 / 認知モデル / クラスタリング |
研究実績の概要 |
本研究の目的は,漸近最適戦略や共クラスタリング技術を知的エージェントに効果的に利用することと,それらを高いレベルで融合することである. 本年度は,最も効果的な漸近最適戦略の一つであるトンプソンサンプリングを強化学習アルゴリズムに組み込み,特に複雑な報酬環境で効果的な強化学習手法であることを確認した.正の報酬と負の報酬の学習という二点のみを用いた学習アルゴリズムで,認知モデルとしてのシンプルさを保ちながら,高度な意思決定が求められる環境でも学習が可能である.これについて論文発表を行った. また,共クラスタリング技術を強化学習に応用するにあたり,いくつかの手法を検討したが,自己組織化マップを用いる方法が可視化に適しており,かつ,学習の誤差も少なくなることを確認した.学習環境が複雑になると一般的に計算量が爆発的に増えていくが,パラメータの異なるいくつかの自己組織化マップを併用し,誤差最小化という点から選択すれば良いことを明らかにした.これについて国内会議発表,論文発表等を行った. さらに,最適化問題を漸近最適戦略へ応用させることによって,効率的に解探索ができることを確認し,論文発表した.一般的な最適化アルゴリズムは初期の探索効率という観点に欠けており,この点についてバンディットアルゴリズムを用いることで対応可能であることを明らかにした.これを利用して差分進化アルゴリズムを改良する方法についても研究発表の予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
予定していた論文発表を完了した.当初はファジィ共クラスタリングを空間の特徴を把握し,分割するためのアルゴリズムとして考えていたが,現在は自己組織化マップを用いた方法によって,計算資源を節約しつつ,より効率的に学習するアルゴリズムの開発中である.これについては基礎実験を終え,その性能を確認した.さらに複雑な問題についてパラメータの調整方法やその自動化について検討中である.また,派生的な研究として行ってきた最適化問題についても,漸近最適戦略を応用することで良い解探索ができ,この研究成果も発表し,さらなる性能向上のためのアルゴリズムの考案と実験を行っている.
|
今後の研究の推進方策 |
ニューラルネットワークを用いた学習手法は計算コストがかかるので,携帯端末等でも実装可能な近年はよりコンパクトで精度の高い学習手法が望まれている.本研究課題はこれを目標とし,論文発表したベータ分布伝搬強化学習と自己組織化マップの融合に向けて研究を進める.複数の異なる学習アルゴリズムを併用することを,複数の戦略をアンサンブルして用いるとされる人間の学習のモデルとしても考えつつ,また,それによって各学習アルゴリズム以上の性能を引き出すことができることを確認する.
|
次年度使用額が生じた理由 |
次年度の学会参加費と論文掲載料の支払いを見込んでいるため
|
次年度使用額の使用計画 |
本年度も既存の設備で研究成果が整ってきたので,研究発表を中心に支出する.
|