2017 Fiscal Year Research-status Report
Intaractive Optimization Method based on Bidirectional Reinforcement Learning of Agent and Trainer and Verification with Practical Data
Project/Area Number |
17K00345
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
堀尾 恵一 九州工業大学, 大学院生命体工学研究科, 准教授 (70363413)
|
Co-Investigator(Kenkyū-buntansha) |
磯貝 浩久 九州工業大学, 教養教育院, 准教授 (70223055)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 強化学習 / エージェント / 学習過程の特徴量 / 分類 / 適切な報酬 |
Outline of Annual Research Achievements |
本研究では,対象となるエージェントが強化学習に基づく行動を獲得するということを仮定し,エージェントの特性を分類し,それに応じた適切な報酬の与え方を設計する.報酬の与え方も強化学習に基づき獲得するので,これを双方向型強化学習と呼び,その枠組みの確立を目的とするものである.これに対し,当初の計画では,(1)計算機上で特性の異なるエージェント集団を構築し,その学習課程に基づいてエージェントを分類する,(2)各クラスのエージェントに対して与える報酬を設計する,(3)シミュレーションで基礎的な方法論を構築すると同時に,実問題における報酬設計の妥当性の検証を行う,(4)これらの研究を通して,教育現場やスポーツ現場における指導の検証を試みる,としており,今年度は,(1)および(2)に取り組んだ. 迷路問題を対象として強化学習するエージェントに関し,強化学習のパラメータである学習率や割引率などの異なるエージェントを多数用意し,それらのエージェントの学習過程において,エージェントの行動から特徴量を算出し,それらをもとにエージェントの分類を試みた.学習過程を詳細に表現する特徴量を利用した場合は高精度でエージェントのパラメータを推定することが可能であり,現実に即した簡便な特徴量のみでも大まかな分類は可能であることを示した.また,分類したエージェント毎に報酬の付与方法を様々に変化させた結果,エージェントの特性に応じて適切な報酬付与方法が異なることを確認した. 一方で,スポーツ現場における指導の検証のため,選手が日々のメンタルおよびフィジカルコンディションを入力するアプリを実装し,複数の大学,高校のチームでの利用を開始した. これらのことから,次年度以降に行う(3)と(4)に関して基礎的な検討は十分達成できたと考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の今年度の具体的な計画は,【1】シミュレーションに基づく双方向強化学習のためのエージェントの分類,【2】トレーナアプリによるデータ収集および基礎的解析,であった. 【1】に関しては,さらに(A)シミュレーション対象とする問題設定の決定,(B)エージェントの学習課程から抽出する特徴量の選定,(C)特徴量をもとにエージェントの特性を分類する手法の確立を個別の課題としていた.(A)に関しては,計画通り迷路問題を取り扱い,所望の結果が得られている.現在,振り上げ問題など現実的な問題を進めている.(B)に関しては,学習過程からエージェントの特性を推定することが実現できたが,実問題ではさらに短時間での推定が必要と考えられるので,今後の課題である.(C)に関しては,実応用も考慮して,可視化というメリットを活用するために自己組織化マップとその拡張手法でエージェントの分類を行い,2次元平面上でエージェントが適切に分類できることを確認した. 【2】に関しては,選手の日々のコンディションをコーチが把握し,適宜選手への介入に利用可能なシステムの開発・改良を行った.スマホなどのモバイル端末で操作可能なアプリを実装し,現在,大学や高校のスポーツチームに使ってもらっており,2018年3月現在で500人以上の選手に使ってもらっている.選手のデータが日々収集されるので,これらのデータに基づき,選手個人の日々の状況の変化やメンタルおよびフィジカル状態がパフォーマンスにどのように影響を及ぼすかについて解析を進めている.
|
Strategy for Future Research Activity |
当初の平成30年度以降の計画は,【3】シミュレーションに基づく双方向強化学習のアルゴリズム構築および安定性解析,【4】トレーナアプリの大規模データの解析および介入妥当性の評価,であった.平成29年度の研究が順調に推移してきたので,基本的にこの計画に沿って進める予定である. 【3】に関しては,(A)各エージェントクラスに対する報酬の最適化手法の確立,(B)双方向強化学習の安定性解析,を進める.具体的には,分類された各エージェントクラスに対し,報酬を設定しエージェントの学習行動の観測する.報酬の与え方の善し悪しによりエージェントの学習効率が変化するが,それに対して試行錯誤を行い,結果として適切な報酬の与え方を獲得する.また,エージェントとトレーナが相互に強化学習で行動を獲得していく過程において,フィードバックが存在することによる学習の不安定性が懸念される.不安定性を回避するために,報酬設計に制約を設ける必要があると考えている.学習の効率化と安定性の向上という相反する目的を調整する制約の設計を行う. 【4】に関しては,(A)平成29年度までに収集した大規模なデータを用いたデータ解析,(B)解析結果の検証によるトレーナ介入の妥当性評価,を進める.具体的には,幅広いレベルのトレーナ,選手からデータを収集する.これにより多様なデータを取りそろえ,様々な状況において,様々な介入に関するデータが得られることを期待するものである.また,上記解析結果を評価する.共同研究者の磯貝はスポーツ心理の専門家であり,メンタルトレーナの講師も行っており,各トレーナがいつどのような介入を行ったかを客観的に評価可能である.解析結果と磯貝の知見を総合的に判断し,トレーナの介入の妥当性を評価する.さらに,双方向強化学習のシミュレーション結果との比較検討を行い,双方向強化学習の妥当性もまた検証する.
|
Causes of Carryover |
当初予定していた研究打合せおよび成果発表のための旅費を使用しなかったために次年度使用額が生じた.これらの旅費に関しては,次年度以降の成果発表などで使用する予定である.
|