2018 年度実施状況報告書

エージェントとトレーナの双方向強化学習による介入最適化手法と実データでの検証

研究課題

研究課題/領域番号	17K00345
研究機関	九州工業大学
研究代表者	堀尾恵一九州工業大学, 大学院生命体工学研究科, 准教授 (70363413)
研究分担者	磯貝浩久九州産業大学, 人間科学部, 教授 (70223055)
研究期間 (年度)	2017-04-01 – 2020-03-31
キーワード	双方向強化学習 / エージェント / トレーナ / フィードバックコメント / メンタル状態 / 認知誤差
研究実績の概要	本研究では，対象となるエージェントが強化学習に基づく行動を獲得するということを仮定し，エージェントの特性を分類し，それに応じた適切な報酬の与え方を設計する．報酬の与え方も強化学習に基づき獲得するので，これを双方向型強化学習と呼び，その枠組みの確立を目的とするものである．これに対し，当初の計画では，（１）計算機上で特性の異なるエージェント集団を構築し，その学習課程に基づいてエージェントを分類する，（２）各クラスのエージェントに対して与える報酬を設計する，（３）シミュレーションで基礎的な方法論を構築すると同時に，実問題における報酬設計の妥当性の検証を行う，（４）これらの研究を通して，教育現場やスポーツ現場における指導の検証を試みる，としており，今年度は，昨年度実施した（１）および（２）の拡張および（３），（４）に取り組んだ．昨年度と同様に迷路問題を対象として強化学習するエージェントを用いて，エージェントに対して認知誤差を仮定した．これは，エージェントが環境情報を取得する際に誤差が生じることを模擬したもので，自身が認知した環境と実環境に確率的に誤差を生じさせた．この誤差によりエージェントの学習は遅くなる，もしくは学習が収束しないなどの状況が観測された．研究の目的は，エージェントの学習行動を観測する際に，どのような状態および行動に着目すれば当該エージェントの認知誤差を適切に推定できるかということであり，通常の学習時と異なる行動を検出可能であることが確認できた．一方で，昨年度利用を開始したメントレアプリを用いて，アプリ側からのフィードバックコメントとして種々のパターンでコメントを生成し，ある種のパターンのコメントが選手のメンタル状態を改善させることに有用であることを示唆した．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由当初の今年度の具体的な計画は，【１】シミュレーションに基づく双方向強化学習のためのエージェントの分類，【２】トレーナアプリによるデータ収集および基礎的解析，【３】シミュレーションに基づく双方向強化学習のアルゴリズム構築および安定性解析，【４】トレーナアプリの大規模データの解析および介入妥当性の評価，であった．【１】に関しては，昨年度の成果からさらにエージェントの認知誤差を定義することで安定性解析の検証を実施した（上記【３】に対応する）．エージェントに対し固有の認知誤差を付与し，種々のエージェントの認知誤差を観測者が推定する実験を行っており，推定のために有効な特定の状態および行動を検出可能であることを示した．最終年度に実施予定である，指導者の強化学習，つまり，認知誤差や学習効率などのエージェントの特徴を推定しつつ，それに適した報酬および行動改善のための介入方法の検討を実施できる準備が整った．【２】および【４】に関しては，現在，500人以上の選手にアプリを使ってもらっており，選手の日々のデータの収集を続けている．現在までに，選手個々で良いパフォーマンスが発揮できるメンタル状態が異なっていることを確認しており，従来のスポーツ心理学の知見を大規模なデータで裏付けることができた．また，フィードバックコメントによるメンタル状態への介入を目的として，種々のパターンのフィードバックコメントを提示し，その影響の解析を進めている．
今後の研究の推進方策	研究の最終目的は双方向強化学習の基礎的な理論構築とスポーツ選手のメンタル状態への介入によるパフォーマンス向上であり，30年度までの進捗を踏まえ，31年度は以下の通り進めていく予定である．双方向強化学習の理論構築に際し，まずは，トレーナ側の学習を実装する．これまでの研究では，強化学習を行う多くのエージェントに対して，種々の特性を持つエージェント個々に対して適切な介入方法が存在することを示したが，現在のところ，膨大な回数のエージェントの学習が必要であり現実的ではない．今年度は，エージェント間の類似性を考慮することで少数の試行回数で適切な介入方法を導き出す方法論を確立することで当初の目標実現を図る．一方で，上記で実現した理論をアプリを介して実際のスポーツ選手に適用する．ここでは，フィードバックコメントによる介入が主となるが，シミュレーション上の介入と実際のフィードバックコメントによる介入との乖離を埋めることが主たる内容となる．そのため，30年度に引き続き，フィードバックコメントによる介入が選手のメンタル状態へ及ぼす影響を詳細に解析し，その関係性をモデルなどにより表現することを当面の目標とする．また，同時に指導者からの介入についても検討を始め，アプリから自動で提供されるフィードバックコメントと指導者からの直接的な介入が選手のメンタル状態へどのように反映するか調査し，当初を目標達成を図る．
次年度使用額が生じた理由	実験およびデータ整理のための人件費を予定していたが、実験の予定を31年度に変更したため