研究課題/領域番号 |
03J07927
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
制御工学
|
研究機関 | 早稲田大学 |
研究代表者 |
間普 真吾 早稲田大学, 情報生産システム研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2003 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
2,500千円 (直接経費: 2,500千円)
2005年度: 800千円 (直接経費: 800千円)
2004年度: 800千円 (直接経費: 800千円)
2003年度: 900千円 (直接経費: 900千円)
|
キーワード | 遺伝的アルゴリズム / 遺伝的プログラミング / 遺伝的ネットワークプログラミング / 進化論的計算手法 / 強化学習 / エージェント / グラフ構造 |
研究概要 |
前年度までの研究で、進化論的計算手法である遺伝的ネットワークプログラミング(GNP)と強化学習を組み合わせ、解の探索精度、探索速度およびメモリの使用量の軽減の点で優れたアルゴリズムを提案してきた。これらのGNPのアルゴリズムは離散値(例えばロボットの行動制御において、障害物があるかないか、右に曲がる、など)を入力または出力することが特徴の一つであったが、実世界の問題では入力や出力は連続値(障害物までの距離がおよそ500、速度10で前進、など)であることのほうが多いため、GNPで連続値を効率よく扱えるアルゴリズムの構築を行った。具体的には、前年度より検討を行ってきたアクタークリティックを用いたGNPとSarsaと呼ばれる強化学習のアルゴリズムを用いたGNPを拡張し、連続値の取り扱いを可能にした。さらに、各手法の性能を評価するためにKheperaロボットの壁伝い行動(センサの値を利用しながら壁に沿ってできるだけ速く真っ直ぐに移動することを目的とする行動)のルールを自動生成させる問題に適用した。その結果、ロボットは壁に沿った適切な経路を移動することが明らかになり、また、従来の進化のみに基づくGNP、およびニューラルネットワークの結合重みと閾値を遺伝的アルゴリズムを用いて探索する方式との比較を行った結果、提案手法が良い性能を示すことが明らかになった。研究成果はSICE Annual Conference 2005、電気学会C部門大会、第15回インテリジェントシステムシンポジウムで発表を行い、また、現在電気学会論文誌Cにて査読中である。
|