研究課題/領域番号 |
24700148
|
研究機関 | 大阪市立大学 |
研究代表者 |
田窪 朋仁 大阪市立大学, 工学(系)研究科(研究院), 准教授 (80397695)
|
研究期間 (年度) |
2012-04-01 – 2014-03-31
|
キーワード | 強化学習 / 遠隔コミュニケーション |
研究概要 |
本研究では、ネットワーク越しのコミュニケーションにおける情報伝達の遅延問題に対し、ユーザのコミュニケーション動作をシステムが理解し、状況に応じた人間の操作を先取りすることで、適切な情報を伝える新たな手法を確立することにある。この課題に対し、「エージェント」を介した通信を行うことで変化する情報通信のトラフィックを考慮しながらユーザビリティを維持する手法を提案する。エージェントは通信の遅れに従い、通信を行うべき情報の選択と先見行動から予測される次の動作を決定し、遠隔地でのシステムの出力を決定する。その結果、ネットワークの遅延が生じた状況においても適切にコミュニケーションを継続することが可能とする。上記の目的のためにまず人の情報入力特性を獲得する必要がある。人間の行動理念は、短期報酬を期待した反射行動、累積報酬を期待した予測行動、行動の収束性に関する3層構造で再現できると考えられる。簡易なゲームシステムをPC上に構築し人の操作特性を学習させたところ、2層までの階層モデルによる学習結果で人の操作特性をよく獲得できていることを確認した。また、学習したモデルが独立してゲームをこなすことができることが確認されたことから、人の特性を模倣したゲーム操作が獲得できており、一時的な時間遅れに対して、人の操作を代替することが可能であることが確認された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
人の行動決定と同じ構成である「短期報酬」、「長期報酬」、「行動の収束」の3層構造を模倣した階層モジュール強化学習で構築し、遅延時間無しの状況で操作者の入力情報とセンサから得られる外界の情報から操作特性を学習させる。人の行動判定を模倣した階層モジュール強化学習のシステムにより人の操作特性を学習することで、対象のロボットを操作する知識の基本構造を構築することを目的としたが、ロボットの操縦における具体的な入力数が大きいため良い結果が得られず、急遽簡易なゲームシステムをPC上で構成し、「短期報酬」、「長期報酬」の2層の行動学習モデルによりゲーム操作の学習を行った。その結果、人の操作特性をよく再現する結果が得られたため、時間遅れが生じた際の入力学習を行う学習構成を現在構築中である。
|
今後の研究の推進方策 |
今回構築した第2層までの構成で人の操作を再現するシステムをベースに、通信遅延の状況を判断しユーザの操作を遅延時間分代替するシステムを構築し、ネットワーク遅延による操作性の悪化をエージェントが改善することを確認する。長期的な操作が人の操作特性を収束させる機能として考えていた第3層は現在のところ良く働いていないが、今後の実験で収束性能が上がらなくなったときは第3層の学習層の導入を検討する。ロボット間の通信制御に関しても引き続き学習に利用可能な状況を検討していく。学習構成の実証に支障が出る場合は現在構成しているPC上の仮想的な環境で時変なネットワーク遅延環境下での入力補助が提案する階層構成により補助が行えることを実証していく。
|
次年度の研究費の使用計画 |
該当なし
|