2012 Fiscal Year Annual Research Report
Project/Area Number |
22500143
|
Research Institution | National Institution for Academic Degrees and University Evaluation |
Principal Investigator |
宮崎 和光 独立行政法人大学評価・学位授与機構, 研究開発部, 准教授 (20282866)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 強化学習 / 機械学習 / 知能機械 / エージェント / 経験強化型学習 |
Research Abstract |
平成24年度においては、当初の予定通り、「連続値入出力に対応した複数種類の報酬と罰を扱える手法」を完成させるとともに「XoLにおける報酬と罰の設計指針」を提示した。これらの成果は、国内シンポジウム(平成24年度 電気学会 電子・情報・システム部門大会)および国際会議(2nd ATISR)において発表した。また、国際的な学術雑誌(Journal of Computers)に掲載される予定にもなっている。 一方、手法の応用の関しては、2足歩行ロボット、および、独立行政法人 大学評価・学位授与機構における科目分類支援システムへの応用を行った。 ロボットへの応用では、複数台のLEGOロボットによるKeepaway Taskへの適用を行った。本成果は、先に述べたJournal of Computers誌に掲載予定となっている。さらに、腱駆動2足歩行ロボットの腰軌道学習への適用も行った。本成果は、Journal of Advanced Computational Intelligence and Intelligent Informatics誌に掲載された。 科目分類支援システムへの応用に関しては、XoLを用いた学習機能を完成させ、国際会議(SCIS-ISIS 2012)で発表した。これにより、今後実施する予定である「データベース作成・更新機能の実現」及び「情報工学区分以外での有効性の検証」につなげるための準備を整えることができた。 これらXoLに関する「報酬と罰の設計指針」および「複数の領域における応用例」が示されたことで、試行錯誤に基づく学習手法としてのXoLの存在意義を強く主張できたと考える。なお、これらの成果は、計測自動制御学会が発行する「計測と制御」誌のリレー解説「強化学習の最近の発展」の第5回に掲載予定であり、産業界も含めた一般的な読者へ強くアピールすることが期待できる。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|