2011 Fiscal Year Annual Research Report
Project/Area Number |
22500143
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)
|
Keywords | 強化学習 / 機械学習 / 知能機械 / エージェント / 経験強化型学習 |
Research Abstract |
平成23年度においては、複数種類の報酬に対応したXoLを満たす手法の提案を行った。当該研究成果は、第39回知能システムシンポジウム資料集に「複数報酬環境下における意識的意思決定方法に関する研究」として掲載された。本手法は、複数種類の報酬に対応した初めてのXoL手法であり、今後、本研究課題の最終目的である「XoLにおける報酬と罰の設計指針の確立」を実現する際の基本となるものである。 一方、手法の提案とともに応用例の探求も本研究課題の重要なテーマである。XoLの応用例としては、平成23年度においては、まず第一に、独立行政法人大学評価・学位授与機構における科目分類支援システムへの適用を行った。当該研究成果は、第21回インテリジェント・システム・シンポジウムおよびThe 9th European Workshop on Reinforcement Learning(EWRL-9)において研究発表を行った。本応用例は、現実の問題へのXoLの応用例として特に重要なものであり、今後、さらなる発展が期待できる応用分野である。 さらに、Journal of Advanced Computational Intelligence and Intelligent Infomatics誌に掲載された論文(Miyazaki,K., Proposal of the Continuous-Valued Penalty Avoiding Rational Policy Making Algorithm)において、1台のLEGOロボットによるXoLの学習能力の検証を行った。これは、今後、複数台のサッカーロボットによるパス回しを模したタスクであるKeepaway TaskにXoLを適用する際の基本となるものである。 このように平成23年度は、手法の提案および応用例の探求ともに進展がみられ、本研究課題の最終目的実現に大きく寄与する年度であった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでにXoLの「連続入出力への対応」および「複数種類の報酬への対応」を行った。また、応用例として、独立行政法人大学評価・学位授与機構の科目分類支援システムへのXoLの適用に成功した。さらにKeepaway TaskへのXoL適用の基礎となる1台のLEGOロボットによる学習能力の検証を行った。このように、研究実施計画に従って、順調に「研発の目的」が進展している。
|
Strategy for Future Research Activity |
平成23年度に提案した手法は、複数種類の報酬に対応する一方、罰の種類は1種類に限定されていた。そこで、平成24年度には、それを「複数種類の報酬と罰」に対応した手法に拡張することを第一に行う。また、その手法を基に、本研究課題の最終目的である「XoLにおける報酬と罰の設計指針の確立」を目指す。 一方、応用例に関しては、まず第一に、平成23年度に実施した科目分類支援システムへの応用のさらなる発展を目指す。さらに、複数台のロボットによるKeepawayタスクへのXoLの適用に着手する予定である。
|