New Developments in Multi-objective Inverse Reinforcement Learning: Toward Designing Autonomous Systems Toward Zero Hazards and Maximum Comfort
Project/Area Number |
23K24921
|
Project/Area Number (Other) |
22H03665 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 61050:Intelligent robotics-related
|
Research Institution | Chiba University |
Principal Investigator |
荒井 幸代 千葉大学, 大学院工学研究院, 教授 (10372575)
|
Co-Investigator(Kenkyū-buntansha) |
松香 敏彦 千葉大学, 大学院人文科学研究院, 教授 (30466693)
小林 宏泰 千葉大学, 大学院工学研究院, 助教 (30844063)
鈴木 智 千葉大学, 大学院工学研究院, 准教授 (90571274)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥13,000,000 (Direct Cost: ¥10,000,000、Indirect Cost: ¥3,000,000)
Fiscal Year 2024: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2022: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
|
Keywords | 自律システム / 目的関数最適化 / Safe AI / マルチエージェント学習 / ロバスト制御 / 認知モデル / 意図推定 / 自律制御と強化学習 / 強化学習の実用化 / 報酬のスパース性 / 暗黙知の形式化 / 人と人工物の調和 / 価値推定 / システムの頑健性 / システムへの信頼性 |
Outline of Research at the Start |
システムへの信頼性の観点から、「設計者が意図する目的と、学習器によって解かれた目的」を逆強化学習に基づく方法によって定量化することによって、システムの動作に基づいた”目的関数”を同定し、モデル予測制御とのハイブリッドシステムを構築する。 目的関数の可視化、および、形式化によって、システムの挙動理解と、効率のよい故障診断を可能にする。 提案法の特徴は、実システムの目的関数の多目的性に着目し、スケーラブルな制御系設計論として体系化する点にある。ドローンと列車の自律制御系の設計過程に導入し、シミュレーションと実機による実験によって提案法を検証する。
|
Outline of Annual Research Achievements |
本課題は,近い将来,人間の行動範囲に共存する自律機械のうち,ドローン,自動車,鉄道の自律制御るに対す機械学習の導入への信頼(安全性と安心)を担保することを目的としている.今年度は,上記目的に沿った適用可能な機械学習のアルゴリズムの検討と改善,および,学習によって獲得した制御則に基づいた運行(飛行,走行を総じて運行と呼ぶ)軌跡から,制御則の目的関数を推定する方法を検討し,簡易なベンチマークを用いて,方法の妥当性を検証した. ドローンは,既に実用が進む海外の状況から,複数台の飛行状況における協調と競合を想定して,衝突回避しながら,効率よく目的タスクの遂行を実施する深層強化学習アルゴリズムを提案し,計算機シミュレーション実験において良好な結果を得た. 鉄道の運行については,定時運行の大前提の下で,鉄道運行における喫緊の課題である省エネルギー運転制御を実現する方法を,二段階最適化問題として定式化した方法のプロトタイプを作成し,従来の方法よりも有意に優れた性能を示すことを確認した. 以上は,機械学習によって得られた制御方法によって,タスクの最適性の向上可能性を示唆する成果であるが,併せて,これらの動きに対する,人(設計者や,共存する人々)の反応を検証することも本課題の重要なエッセンスである.これについては,まず,設計者の理解を促す方法として,学習後の制御入力と出力の対応関係を統計的に分析し,入力次元に関して「アテンション」(機械が着目した重要な“特徴”)を抽出することによって,出力との因果関係を導出する方法を検討し,理解の妥当性を評価した.これによって,学習結果のフィルタ効果を確認しており,副次的な効果として,2023年度の研究計画に盛り込む予定である.理解や説明を促すための方法が,学習による制御の冗長な部分や,これまで不可避であった,確率的な挙動解消に対しての有効性が期待できる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度は,深層強化学習を物理空間で動作する実機に搭載する上での課題として,実世界と,実際に学習器が試行錯誤する「実世界を模したシミュレーション環境」の乖離に着目し,対応策として「ドメインランダマイゼーション」と呼ばれる,シミュレータの動作に予め外乱に相当する物理変数の揺らぎを導入したアプローチを取り上げている.ドローンについては姿勢制御,鉄道については定時運行とエネルギー最小化,自動運転については市街地混合交通流における安全性を評価指標とするための報酬設計問題を,逆強化学習の計算量削減,マルチエージェント逆強化学習,および,多目的逆強化学習への拡張に向けたモデルを策定した. 年度前半9月以前は,対象問題のプロトタイプ,制御主体側として,学習と制御アルゴリズムの検討,制御対象側の環境モデルとして,モデルベースト制御におけるモデルを導入し,強化学習後にモデルベース制御を適用する直列型のシステムを構成した.ドローンについては飛行環境,鉄道については,車両重量,線路の摩擦係数など天候による変化を反映した環境モデルを計算機上に実装するための物理モデル用いて,学習の高速化と精度を向上させることができた. 上記の計算機実装と動作確認を目的として,簡易タスクに対する計算機シミュレーションを用いた性能を評価し,計算機実験の結果と考察を講演論文としてまとめ,国際会議に投稿し今年度発表予定である. 年度後半9月~3月までは,9月初めに,前半に検討した環境側のモデルを用いて,制御主体側の学習器および制御器の改善方針について担当ごとの考察と再構築案を整理した上で,全担当者との議論の場を設け,結果と知見を共有し,総合的な視点から改善するための方法を検討した.統一的な改善策は整理できていないが,個々の課題を定式化し,実践的なアプローチの選定と改良の方針をまとめている.
|
Strategy for Future Research Activity |
人と機械の共存下における自律機械の設計に関する実践的な方法を形式化は,世界でも重要な課題であることを,昨年度末に参加したAIのトップ国際会議で実感した.研究の貢献可能性,方向性については,海外研究者との対面での議論が可能になったため,引き続き交流しながら,方法論として具現する予定である. 半導体不足,円安などで高性能計算機が高騰しているため,実環境での検証については,デジタルツインを想定していたが,ツインの一方(仮想空間上)を縮小するためのモデリングの再検討が必要である.特に「人との相互作用」に関する実験計画~実験~検証については実験計画をこれまでの規模から縮小する必要があることを確認している.自動運転,化学プラント,またAUV(無人潜水艇)の自律制御に関して,企業との共同研究を実施してきた.それぞれ,いずれもシミュレータが中心で,実際にこれまで提案してきた逆強化学習が実世界利用するための問題意識として,本申請課題の「解の信頼性」を持っていた.実際,逆強化学習で指摘されている一般的な課題は,報酬のスパース性,データの過小性,学習の不安定性など数多くあるが,本課題で追求するのは「安定性」である.また,制御理論は広く制御問題をカバーしており,強化学習/逆強化学習が用いている要素技術とともに,制御理論とのマッピングをし,工学的な利用者の利便性を向上させることも成果として残す予定である.2022年度は,データが過小の場合に対応した敵対型生成モデルなどについては未検討であるため, 2023年度は敵対型生成モデルと,分類型の逆強化学習の親和性を含めて検討する.また,制御理論と強化学習による制御則間の相互性能改善についてはオフラインで実施する.これがうまくいけば2024年度は,オンラインでモデル修正するアルゴリズムを少なくとも,列車のシミュレータ実験に適用したいと考えている.
|
Report
(1 results)
Research Products
(5 results)