本研究では,対象となるエージェントが強化学習に基づく行動を獲得するということを仮定し,エージェントの特性を分類し,それに応じた適切な報酬の与え方を設計する.報酬の与え方も強化学習に基づき獲得するので,これを双方向型強化学習と呼び,その枠組みの確立を目的とするものである.これに対し,当初の計画では,(1)計算機上で特性の異なるエージェント集団を構築し,その学習課程に基づいてエージェントを分類する,(2)各クラスのエージェントに対して与える報酬を設計する,(3)シミュレーションで基礎的な方法論を構築すると同時に,実問題における報酬設計の妥当性の検証を行う,(4)これらの研究を通して,教育現場やスポーツ現場における指導の検証を試みる,としており,昨年度までの成果を踏まえ,今年度はスポーツ現場における指導により種々の検証を行った. 一昨年度に利用を開始したメントレアプリを用いて,昨年度から実施しているアプリ側からのフィードバックコメント自動生成のパターンを再検討し,昨年度と同チームで再実験を行うことで効果の検証を行った.メンバーの中には,フィードバックコメントとして,現状を客観的に報告するパターンの場合にパフォーマンスが良い選手が多く,次いで,フィードバックコメントがポジティブパターンの場合にパフォーマンスが良い選手が多い傾向があった.ただし,昨年度と今年度の2度の検証において,同じ選手が同じ傾向を有するということがあまり見られず,フィードバックコメントが選手のパフォーマンスに与える影響を明確に示すには至らなかった.選手に応じた適切なフィードバックコメントの自動生成にためには,今回の結果では不十分ではあるが,方向性の目途は付けられたものと考えられる.
|