前年度に続いて「学習する対象から情報収集するアルゴリズムの設計」を行った。前年度までの研究で、情報収集する対象が比較的ゆっくり学習する場合について、そのトレンドを読み取り情報を集めるアルゴリズムが導けていた。そしてアルゴリズムの性能の鍵になるのがリカレント神経回路の記憶効果を利用することである、という結果を得ていた。これを受けてこの部分の研究に注力し、ブレイクスルーとなる理論が導け、論文を執筆し投稿した。 今年度、この論文の内容について海外の学会にて発表したところ大きな反響があり、また投稿論文の査読者からもポジティブなコメントが得られた。しかし、同時にこの理論を学習に役立てるに当たって、まだ埋めるべき理論的ギャップがあることも指摘された。そこで、この問題に取り組んだところ、理論的ギャップを埋めることができ、論文の内容を補強することができた。特にこの過程で、リカレント神経回路ダイナミクスの新たな確率的摂動論を開発することに成功し、技術的なブレイクスルーを得た。このブレイクスルーの副産物として、リカレント神経回路の学習に関する理論的結果を新たに導けた。現在後者の論文をまとめている。また、これらの進展をもとに、導いた情報収集アルゴリズムが有用であることを示すことができ、この論文の執筆も進めた。 応用面では新たに計算サーバーを増設し、導いたアルゴリズムの応用研究を進めた。強化学習課題において、導いたアルゴリズムが通常のアルゴリズムよりも学習する対象相手に高い性能を示すことがわかった。また同時にゲーム理論への応用に関して調査を進め、問題の定式化とシミュレーションを行なった。
|