研究課題/領域番号 |
18K11424
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 筑波大学 |
研究代表者 |
澁谷 長史 筑波大学, システム情報系, 助教 (90582776)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2019年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2018年度: 2,730千円 (直接経費: 2,100千円、間接経費: 630千円)
|
キーワード | 機械学習 / 強化学習 / 一次遅れ要素 / むだ時間要素 |
研究成果の概要 |
つぎの3通りの方法で補償器設計に関する研究を進め、さらに応用に関する研究も行った。1つ目の方法は、一次遅れ要素やむだ時間の有無によって生じる遷移先の状態の差を小さくするという基準で補償器を設計するというものである。2つ目の方法は、一次遅れ要素の有無によって生じる一次遅れ要素の出力の差を小さくするという基準で補償器を設計するというものである。3つ目の方法は、一次遅れ要素に対する拡張状態を一次遅れの特性を利用した低次元表現によって設計するものである。最後に、アクチュエータを持つロボットが様々な床面を走行する場合を想定し、行動戦略を切り替える強化学習法について研究を行った。
|
研究成果の学術的意義や社会的意義 |
本研究の成果は大きく2つの学術的意義を有する。本研究の意義の1つ目は、補償器をあとから追加する方式をとる場合でもそれらの再学習を不要にできる点である。一次遅れ要素やむだ時間要素を含まない環境で学習を行い、あとからこれらを追加した環境で学習しようとする場合に生じる再学習を避けることができる。また、2つ目は、一次遅れ要素やむだ時間要素の出力値に関する情報を直接的には利用しないため、環境の情報を新たにセンシングする必要もない点である。この性質により、環境から見込んだ先を不変のものとして扱うことができる。
|