2019 Fiscal Year Annual Research Report
Intaractive Optimization Method based on Bidirectional Reinforcement Learning of Agent and Trainer and Verification with Practical Data
Project/Area Number |
17K00345
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
堀尾 恵一 九州工業大学, 大学院生命体工学研究科, 教授 (70363413)
|
Co-Investigator(Kenkyū-buntansha) |
磯貝 浩久 九州産業大学, 人間科学部, 教授 (70223055)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | メンタル状態 / フィードバックコメント / 強化学習 / 報酬設計 |
Outline of Annual Research Achievements |
本研究では,対象となるエージェントが強化学習に基づく行動を獲得するということを仮定し,エージェントの特性を分類し,それに応じた適切な報酬の与え方を設計する.報酬の与え方も強化学習に基づき獲得するので,これを双方向型強化学習と呼び,その枠組みの確立を目的とするものである.これに対し,当初の計画では,(1)計算機上で特性の異なるエージェント集団を構築し,その学習課程に基づいてエージェントを分類する,(2)各クラスのエージェントに対して与える報酬を設計する,(3)シミュレーションで基礎的な方法論を構築すると同時に,実問題における報酬設計の妥当性の検証を行う,(4)これらの研究を通して,教育現場やスポーツ現場における指導の検証を試みる,としており,昨年度までの成果を踏まえ,今年度はスポーツ現場における指導により種々の検証を行った. 一昨年度に利用を開始したメントレアプリを用いて,昨年度から実施しているアプリ側からのフィードバックコメント自動生成のパターンを再検討し,昨年度と同チームで再実験を行うことで効果の検証を行った.メンバーの中には,フィードバックコメントとして,現状を客観的に報告するパターンの場合にパフォーマンスが良い選手が多く,次いで,フィードバックコメントがポジティブパターンの場合にパフォーマンスが良い選手が多い傾向があった.ただし,昨年度と今年度の2度の検証において,同じ選手が同じ傾向を有するということがあまり見られず,フィードバックコメントが選手のパフォーマンスに与える影響を明確に示すには至らなかった.選手に応じた適切なフィードバックコメントの自動生成にためには,今回の結果では不十分ではあるが,方向性の目途は付けられたものと考えられる.
|