Project/Area Number |
23K24921
|
Project/Area Number (Other) |
22H03665 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Chiba University |
Principal Investigator |
荒井 幸代 千葉大学, 大学院工学研究院, 教授 (10372575)
|
Co-Investigator(Kenkyū-buntansha) |
松香 敏彦 千葉大学, 大学院人文科学研究院, 教授 (30466693)
小林 宏泰 千葉大学, 大学院工学研究院, 助教 (30844063)
鈴木 智 千葉大学, 大学院工学研究院, 准教授 (90571274)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥13,000,000 (Direct Cost: ¥10,000,000、Indirect Cost: ¥3,000,000)
Fiscal Year 2024: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
|
Keywords | 自律システム / 目的関数最適化 / Safe AI / モデルフリー強化学習 / モデル同定 / 逆強化学習 / Reward Shaping / Sim-to-Real / マルチエージェント学習 / ロバスト制御 / 認知モデル / 意図推定 / 自律制御と強化学習 / 強化学習の実用化 / 報酬のスパース性 / 暗黙知の形式化 / 人と人工物の調和 / 価値推定 / システムの頑健性 / システムへの信頼性 |
Outline of Research at the Start |
システムへの信頼性の観点から、「設計者が意図する目的と、学習器によって解かれた目的」を逆強化学習に基づく方法によって定量化することによって、システムの動作に基づいた”目的関数”を同定し、モデル予測制御とのハイブリッドシステムを構築する。 目的関数の可視化、および、形式化によって、システムの挙動理解と、効率のよい故障診断を可能にする。 提案法の特徴は、実システムの目的関数の多目的性に着目し、スケーラブルな制御系設計論として体系化する点にある。ドローンと列車の自律制御系の設計過程に導入し、シミュレーションと実機による実験によって提案法を検証する。
|
Outline of Annual Research Achievements |
本課題の目的は,人と行動空間を共有する自律機械(ドローン,自動車,鉄道)の動作について信頼(安全性と安心)を担保する新たな制御方法を確立することにある. 2022年度は,上記目的に沿った機械学習のアルゴリズムの検討と改善,および,学習によって獲得した制御則に基づいた運行(飛行,走行を総じて運行)軌跡から,制御則の目的関数の推定法を提案しベンチマークを用いた検証を通じてその妥当性を検証した. 2023年度は,Sim-to-Realの一環としてシミュレーション環境と実環境の相違に着目し,実環境でのデータを用いた「オフライン強化学習」に加えて,制御理論との融合の観点から,「モデルベースト制御(Model Based Control:以後MBC)」および,「モデル予測制御(Model Predicted Control:以後 MPC)」を導入した.基本的な強化学習は,モデルフリーと呼ばれる通り,制御対象となる環境のモデルを明示的に記述する必要がないが,学習によって得られる制御則は確率的であり,その挙動は環境変化に頑健である一方で微小なゆらぎが生じる.一方,制御理論の枠組みであるMBCやMPCは,事前に環境モデルの記述を要するが,モデルが正しければ安定性を担保することができる. 両者の長短を補完する統合的手法として強化学習によって得られる入出力データセット(状態入力と行動出力の系列;{(s,a,s’)})から,制御理論で用いる状態方程式を同定する.提案法では,従来の制御理論でのシステム同定法よりも,データ探索範囲を絞り込むことが可能になったことから効率的なシステム同定法といえる.ただし,現状では,本手法の評価は,カートポール問題を用いた実験にとどまっているため,さらに状態-行動空間が大規模な環境で試す予定である.制御対象のスケールが大きいほど,本手法の効果も高くなることが期待される.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は鉄道の定時運行と省エネルギー運転,自動車に対して,これまでの逆強化学習を用いたアプローチに加えて,多目的強化学習の枠組みを導入し,主要課題である「目的関数の推定問題」を複雑な対象環境にも適用可能な方法へと拡張している.また,ドローンについては,シミュレーション環境から,実機への実装も進め,深層強化学習を導入した障害物回避の飛行実験も進めている. 鉄道の運行については,定時運行と省エネの両立を昨年度までは,二段階最適化問題として定式化した方法を提案し,その優位性を示したが,2023年度は,2段階とせずに多目的逐次意思決定問題としての解いている.これまでの二段階では,解の探索範囲を“定時の厳守”を優先した制約条件として限定することから,より良い解(制御則)を事前に排除している可能性もあるため,多目的としての解法の方が,良質な解候補を残せる可能性がある.ただし,現状では定式化と実装を進めている状況であり,二段階最適化問題による方法による解との比較と検証が必要である. 自動車における自動運転の多目的性は,快適性とスピード(効率)の2目的逐次意思決定問題として実装し,利用者(運転者や乗客)の選好を反映した「自動運転」の実現を計算機実験によって示した. また,昨年に引き続き,これらの人工物の動きに対する,人(設計者や,共存する人々)の反応の検証について,簡易なゲーミング環境を作成している.また,目的関数や制御パラメータの設計者への説明可能性や,理解を促す方法として位置付けるためには,何が必要かについての議論も詰めている.これについては,設計者の理解を促す方法として,時系列入力の「アテンション」を抽出することによって,出力との因果関係を導出する方法を検討し,理解の妥当性を評価した.
|
Strategy for Future Research Activity |
「実世界とシミュレーション環境」の乖離に着目し,制御における目的関数,環境モデルの推定を主な課題として進めてきた.本期間では,ドローンについては姿勢制御,鉄道については定時運行とエネルギー最小化,自動運転については市街地混合交通流における安全性を評価指標とするための報酬設計問題を,逆強化学習の計算量削減,マルチエージェント逆強化学習,および,多目的逆強化学習への拡張に向けたモデル策定と計算機実験による評価,および,実機についてはドローンを用いた実験を計画している. 年度前半(9月まで)は,制御主体側としてモデル予測制御とモデルベース強化学習,および逆強化学習によって推定される目的関数を導入し,ドローンへの実装と実機実験を計画する.鉄道については,車両重量,線路の摩擦係数など天候による変化を反映した環境モデルを計算機上に実装するための物理モデルを精査する. 予算の都合上,「人との相互作用」に関する実験計画~実験~検証は難しいが,代わりにゲーミングを用いる.ゲーミング環境を用いた被験者実験で代替する.実験については簡易な実験に縮小する必要がある.自動運転,化学プラント,またAUV(無人潜水艇)の自律制御に関して,企業との共同研究を実施してきたため,これらの実験データを「オフライン強化学習」に適用して実空間に近い状況を設定する. 本申請課題の「解の信頼性」を保証する上で,強化学習における報酬のスパース性,データの過小性,学習の不安定性を指摘し,報酬とデータの希少性については既に対応策を提案している.最終年度の主要課題を「安定性」として理論的保証を導出する.一方,強化学習側からは工学的な利便性の向上について実験的,理論的な考察を行う.特に2022年度までは,深層学習なしの強化学習/逆強化学習を用いてきたが,2023年度は敵対型生成を導入するが,この際の説明可能性を最重要課題とする.
|