2020 Fiscal Year Research-status Report
統計的機械学習の手法を用いたデータ駆動型非線形準最適制御
Project/Area Number |
19K20375
|
Research Institution | Nagoya University |
Principal Investigator |
有泉 亮 名古屋大学, 工学研究科, 助教 (30775143)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 強化学習 / マイクロデータ / 多自由度ロボット |
Outline of Annual Research Achievements |
2020年度においては,(i) 受動性を利用した移動ロボットのための強化学習法の基礎的考察,(ii) 進化戦略を応用した移動ロボットのための強化学習法の新しい拡張の提案,(iii) 深層強化学習・自己符号化器・応答曲面法を組み合わせた高効率な強化学習法提案に向けた基礎検討,の3つの点を中心に研究を実施した.これらはいずれも,少ない実験データから適切なロボットの運動を獲得することを目的としている.このようなデータ効率の高い強化学習手法は,移動ロボットの運動のようにビッグデータを獲得することが困難な対象の運動決定を考える,マイクロデータとも呼ばれる種類のタスクにおいて不可欠な手法となる可能性があると考えている. 項目 (i) については,基礎となる制御側を提案(国際会議SWARM2021にて発表を予定)し,その制御則を利用した強化学習により,ヘビ型ロボットの運動獲得が可能なことを確認した.特に,特定のモデルで学習した結果を別のモデルに適用しても,適切な動きが得られるというロバスト性が想定通りに得られることを数値例で確認した.項目 (ii) についても大枠は完成させることができた(国内会議SCI21にて発表を予定).特に,ベースとして用いている強化学習手法において,既存の運用法での欠点を指摘し,その解決策を提示できた.項目 (iii) については大枠の手法を提案し検証を行ったが,現状では良い結果を得られていない.項目 (iii) で検討している手法でよい結果を得られない原因について,数学的に明確な説明にはまだ成功していないが,問題となる個所の絞り込みはある程度できた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
概要に示したように,(i) 受動性を活用した新しい学習則の提案,(ii) 進化戦略を応用した強化学習法の拡張,(iii) 深層強化学習と応答曲面法を組み合わせた新しい学習法,の3つの観点から研究を進めた.項目 (ii) についてはもともとの計画では想定していなかった種類の手法であるが,よりプリミティブな内容であり,ほかの方法と組み合わせて活用することを想定している. 項目 (i) では,新たに提案した受動性を利用したロバスト制御則を利用して,モデルと実際が異なっていても追加学習なしで想定通りの挙動を行えるような方策を獲得することに成功した.また,提案手法を用いてヘビ型ロボットの先頭経路追従制御が達成できることを数値例で示した.ただし,基礎となる制御側のロバスト性に関しての数学的な論証は今後の課題である.加えて,学習結果を実機やより実機に近いシミュレータに適用しても追加学習なしで適切に挙動することを確認する必要がある. 項目 (ii) ではPI2と呼ばれる強化学習法に着目した.手法のハイパーパラメータのうちの一つについて,従来の調整法の欠点を指摘し,より適切な調整法を提案した.指摘した従来法の欠点は,ある種の問題設定で学習が適切な値に収束しなくなるという致命的なものである.この現象を明示的に記述している文献は見つからないが,この現象を避けるためと思われる,不自然な問題設定がなされている文献は存在している.この問題を解決したことにより,PI2の適用範囲は大幅に改善できると考えている. 項目 (iii) については,大枠の手法を提案し他手法との比較を行ったが有意な改善は見られなかった.複数の検証の結果から,この原因としては,ベースとして使用している強化学習法における勾配の推定が十分な精度でなされていないことが想定されている.しかし,勾配の推定精度が得られない原因については未解明である.
|
Strategy for Future Research Activity |
今後は今までに得られた手法の数値的・理論的検証と検証結果に基づく改良を中心に行う.具体的には,まず,受動性を活用した学習ではベースとなる制御側がロバストであることが重要であるが,制御側のロバスト性に関して理論的検証がなされていない.この点については予備的な検討の結果から,ある種のモデル化誤差が存在する場合に対し,誤差の有界性を証明できるのではないかと考えている.また,提案法の有効性に関する数値的検証も不十分であるため,今後,より実際に近いシミュレーションも用いた検証を行う.加えて,可能であれば実機実験による検証を実施する.実機検証に用いるロボットについては,現在開発中のヘビ型ロボットを用いる予定である.進化戦略を応用する手法については,その手法の特徴から理論的な議論は限定的にならざるを得ないが,主張の裏付けとなるデータを多く集める予定である.こちらの内容についても,実際のロボットアームなどを用いて実機検証することも想定しており,現在使用するロボットの選定を行っている.深層強化学習と応答曲面法の組み合わせに関しては,提案した枠組みで学習効率の向上が見られない点についてその原因を探る必要がある.
|
Causes of Carryover |
新型コロナウイルス対策のために出張が中止となったこと,学外からでも実行可能な内容を優先したために実証実験用ロボットの開発に遅れが生じたことが大きい. 2021年度はやはり出張は当初の想定より少なくなると考えられるが,状況が許せば出張を予定しているほか,2020年度内に採録に至らなかった論文の掲載料の支払いを予定している.また,実証実験用のロボットの用意や計算機の追加に利用することを予定している.なお,現時点でも研究遂行に最低限必要な計算機は確保しているものの,老朽化による動作の不安定化や計算能力の陳腐化のために2020年度中に使用を停止した,あるいは今後停止予定の計算機が複数台存在する.統計的に説得力のあるデータの取得に必要な,幅広い設定での検証実行に支障が出ることを防ぐため,2021年度中に少なくとも数台の計算機導入が必要であると考えている.
|