2001 年度実績報告書

次世代進化・適応システムの基盤研究

研究課題

研究課題/領域番号	13480089
研究機関	東京工業大学
研究代表者	小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
研究分担者	木村元東京工業大学, 大学院・総合理工学研究科, 助手 (40302963)
キーワード	進化システム / 遺伝的アルゴリズム / 実数値GA / 多目的GA / 適応システム / 強化学習 / マルチエージェント強化学習 / 報酬共有の合理性
研究概要	今年度は以下の研究実績を得た。 1. 進化計算に関する研究成果・非線形性・悪スヶ一ル性・多峰性をもった連続関数最適化問題に対してロバストな実数値GAとして、外挿的交叉EDX(Extrapolation-Directed Crossover)、交叉的突然変異ANS(Adaptive Neighboring Search)を提案し、ベンチマークヘの適用により、有用性を確認した。・GAを用いて多目的最適化問題のパレート最適解集合を求める方法についての理論的考察を行い、従来手法が破綻する原因を解明するとともに、これを克服する新たな解法を提案し、その有効性を検証した。・並列二重倒立振子の振り上げ安定化問題について、ニューラルネットの重みを実数値GA(UNDX)によって最適化することにより、知識やモデルを利用することなく、振り上げ安定化の自動制御に成功した。・航空機スケジューリングの代表問題であるFlight Scheduling、Crew Paring、Crew Rosteringについて、GAによる実用的な解法を構築し、現場で使えるほどの性能を確認した。・X線回折から得られる電子密度マップからタンパク質の3次元構造を自動的に決定するGAべ一スの手法を構築し、実用化につながる大きな成果を得た。 2. 強化学習に関する研究成果・従来の強化学習理論の多くは割引期待報酬を前提としてきたが、金融工学などリスク回避が問題への適用を考慮して、報酬のばらつきを考慮した強化学習の理論と手法を提案した。・マルチエージェント強化学習における報酬共有の合理性について、理論的に考察し、不合理な挙動を回避するための条件を明らかにした。・多数の行動を扱う強化学習の性能向上を図るために、確率的2分木の行動選択を用いたActor-Criticアルゴリズムを提案し、その効果を確認した。・4足歩行ロボット及び環状ロボットの前進動作をモデルなし、知識なしのゼロベースから強化学習だけで実時間で獲得することが可能であることを示した。・非線形性・時間遅れを伴う上下水道系の制御問題をマルチエージェント強化学習によって定式化し、従来手法を凌駕する性能を示すことを確認した。

研究成果
(8件)

すべてその他

すべて文献書誌 (8件)

[文献書誌] Hajime Kimura, Toru Yamashita, Shigenobu Kobayashi: "Reinforcement Learning of Walking Behavior for a Four-Legged Robot"40th IEEE Conference on Decision and Control. 411-416 (2001)
[文献書誌] Kazuteru Miyazaki, Shigenobu Kobayashi: "Rationality of Reward Sharing in Multi-agent Reinforcement Learning"Journal of New Generation Computing. Vol.91, No.2. 157-172 (2001)
[文献書誌] Kokoro Ikeda, Hajime Kita, Shigenobu Kobayashi: "Failure of Pareto-Based MOEAS : Does Non-Dominated Really Mean Near to Optimal?"Congress on Evolutionary Computation(CEC2001). 957-962 (2001)
[文献書誌] Jun Sakuma, Shigenobu Kobayashi: "Extrapolation-Directed Crossover for Real-coded GA : Overcoming Deceptive Phenomena by Extrapolative Search"Proc. of Congress on Evolutionary Computation. 655-662 (2001)
[文献書誌] 木村周平, 小野功, 喜多一, 小林重信: "交叉の設計指針に基づくUNDXの拡張:ENDXの提案と評価"計測自動制御学会論文誌. Vol.37, No.1. 1162-1171 (2001)
[文献書誌] 高橋治, 木村周平, 小林重信: "交叉的突然変異による適応的近傍探索-騙しのある多峰性関数の最適化-"人工知能学会誌. Vol.16, No.1. 175-184 (2001)
[文献書誌] 木村元, 小林重信: "確率的2分木の行動選択を用いたActor-Criticアルゴリズム:多数の行動を扱う強化学習"計測自動制御学会誌. Vol.37, No.12. 1147-1155 (2001)
[文献書誌] 佐藤誠, 木村元, 小林重信: "報酬の分散を推定するTDアルゴリズムとMean-Variance強化学習法の提案"人工知能学会誌. Vol.16, No.3-F. 353-362 (2001)

2001 年度 実績報告書

次世代進化・適応システムの基盤研究

研究代表者

小林 重信 東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)

研究成果

[文献書誌] Hajime Kimura, Toru Yamashita, Shigenobu Kobayashi: "Reinforcement Learning of Walking Behavior for a Four-Legged Robot"40th IEEE Conference on Decision and Control. 411-416 (2001)

[文献書誌] Kazuteru Miyazaki, Shigenobu Kobayashi: "Rationality of Reward Sharing in Multi-agent Reinforcement Learning"Journal of New Generation Computing. Vol.91, No.2. 157-172 (2001)

[文献書誌] Kokoro Ikeda, Hajime Kita, Shigenobu Kobayashi: "Failure of Pareto-Based MOEAS : Does Non-Dominated Really Mean Near to Optimal?"Congress on Evolutionary Computation(CEC2001). 957-962 (2001)

[文献書誌] Jun Sakuma, Shigenobu Kobayashi: "Extrapolation-Directed Crossover for Real-coded GA : Overcoming Deceptive Phenomena by Extrapolative Search"Proc. of Congress on Evolutionary Computation. 655-662 (2001)

[文献書誌] 木村 周平, 小野 功, 喜多 一, 小林 重信: "交叉の設計指針に基づくUNDXの拡張:ENDXの提案と評価"計測自動制御学会論文誌. Vol.37, No.1. 1162-1171 (2001)

[文献書誌] 高橋治, 木村周平, 小林重信: "交叉的突然変異による適応的近傍探索-騙しのある多峰性関数の最適化-"人工知能学会誌. Vol.16, No.1. 175-184 (2001)

[文献書誌] 木村 元, 小林 重信: "確率的2分木の行動選択を用いたActor-Criticアルゴリズム:多数の行動を扱う強化学習"計測自動制御学会誌. Vol.37, No.12. 1147-1155 (2001)

[文献書誌] 佐藤 誠, 木村 元, 小林 重信: "報酬の分散を推定するTDアルゴリズムとMean-Variance強化学習法の提案"人工知能学会誌. Vol.16, No.3-F. 353-362 (2001)

2001 年度実績報告書

小林重信東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)

[文献書誌] 木村周平, 小野功, 喜多一, 小林重信: "交叉の設計指針に基づくUNDXの拡張:ENDXの提案と評価"計測自動制御学会論文誌. Vol.37, No.1. 1162-1171 (2001)

[文献書誌] 木村元, 小林重信: "確率的2分木の行動選択を用いたActor-Criticアルゴリズム:多数の行動を扱う強化学習"計測自動制御学会誌. Vol.37, No.12. 1147-1155 (2001)

[文献書誌] 佐藤誠, 木村元, 小林重信: "報酬の分散を推定するTDアルゴリズムとMean-Variance強化学習法の提案"人工知能学会誌. Vol.16, No.3-F. 353-362 (2001)