2002 Fiscal Year Annual Research Report
Project/Area Number |
13480089
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
小林 重信 東京工業大学, 大学院・総合理工学研究科, 教授 (40016697)
|
Co-Investigator(Kenkyū-buntansha) |
木村 元 東京工業大学, 大学院・総合理工学研究科, 助手 (40302963)
|
Keywords | 進化計算 / 実数値GA / UV構造仮説 / k-tablet構造 / 強化学習 / actor-critic / 分散強化学習 / マルチエージェントシステム |
Research Abstract |
(1)進化計算に関する研究成果 ・大域的多峰性を考慮した世代交代モデルの提案:探索空間に大きな谷が複数存在して各谷に有力な局所解が存在する大域的多峰性下でGA (Genetic Algorithms)が探索に失敗する現象を説明するUV構造仮説を提唱した。さらに、UV現象を回避する世代交代モデルISM (Innately Split Model)を提案した。 ・高次元k-tablet構造を考慮した隠れ変数上の交叉LUNDX-mの提案:稜構造に代表される悪スケール構造の一般化であるk-tablet構造の下では従来の実数値GAの交叉による探索効率が悪化することを指摘し、k-tablet構造に対応できる交叉LUNDX-mを提案してベンチマーク問題でその有効性を確認した。 ・実数値GAにおける景観分析法とレンズ系設計問題への適用:クラスタリング手法によりサンプル集合を谷ごとに分類、各谷のサンプル集合に対して主成分分析を行い、主成分ごとの寄与率の差異を分析することによりk-tablet構造を同定する方法を提案し、レンズ系設計問題の景観の複雑さを解明した。 (2)強化学習に関する研究成果 ・強化学習による4足ロボットの歩行動作獲得:actorの行動選択に正規分布を用いるactor-criticの問題点を回避するアルゴリズムを提案し、8次元連続状態・連続行動の4足ロボットの歩行動作獲得問題に適用して、適切な歩行を効率よく学習できることを示した。 ・共有意思決定による協調型分散強化学習とその応用:多段フローシステムを分散強化学習の枠組みで定式化したとき直面する2種類のトレードオフ(利己と利他、制約と性能)を適応的に調整する新しいメカニズムとして共有意思決定を提案し、下水道制御への適用により有効性を確認した。 ・罰回避政策形成アルゴリズムの拡張とゲームヘの応用:最適性の代わりに、合理性を保証する強化学習の枠組みである罰回避政策形成アルゴリズムの性能を向上させることを目的に、緩和された罰概念に基づく改良版を提案し、オセロゲームで有効性を確認した。
|
Research Products
(6 results)
-
[Publications] 池田心, 小林重信: "GAの探索におけるUV現象とUV構造仮説"人工知能学会論文誌. Vol.17, No.3. 239-246 (2002)
-
[Publications] Sakuma, J., Kobayashi, S.: "k-tablet Structure and Crossover on Latent Variables for Real-coded GA"Proc. Int. Conf. on Genetic Algorithms. 404-411 (2002)
-
[Publications] Sakuma, J., Kobayashi, S.: "Non-parametric Expectation-Maximization for Gaussian Mixture"Proc. of 9^<th> Int. Conf. on Neural Information Processing. 517-522 (2002)
-
[Publications] 木村元, 山下透, 小林重信: "強化学習による4足ロボットの歩行動作の獲得"電気学会電子情報システム部門誌. Vol.122-C, No.3. 330-337 (2002)
-
[Publications] 宮崎和光, 坪井創吾, 小林重信: "罰回避政策形成アルゴリズムの改良とオセロゲームへの応用"人工知能学会論文誌. Vol.17,No.5. 548-556 (2002)
-
[Publications] 青木圭, 木村元, 小林重信: "協調型分散強化学習による上水道送水系の制御"第30回知能システムシンポジウム. 155-160 (2003)