前年度までの研究で、進化論的計算手法である遺伝的ネットワークプログラミング(GNP)と強化学習を組み合わせ、解の探索精度、探索速度およびメモリの使用量の軽減の点で優れたアルゴリズムを提案してきた。これらのGNPのアルゴリズムは離散値(例えばロボットの行動制御において、障害物があるかないか、右に曲がる、など)を入力または出力することが特徴の一つであったが、実世界の問題では入力や出力は連続値(障害物までの距離がおよそ500、速度10で前進、など)であることのほうが多いため、GNPで連続値を効率よく扱えるアルゴリズムの構築を行った。具体的には、前年度より検討を行ってきたアクタークリティックを用いたGNPとSarsaと呼ばれる強化学習のアルゴリズムを用いたGNPを拡張し、連続値の取り扱いを可能にした。さらに、各手法の性能を評価するためにKheperaロボットの壁伝い行動(センサの値を利用しながら壁に沿ってできるだけ速く真っ直ぐに移動することを目的とする行動)のルールを自動生成させる問題に適用した。その結果、ロボットは壁に沿った適切な経路を移動することが明らかになり、また、従来の進化のみに基づくGNP、およびニューラルネットワークの結合重みと閾値を遺伝的アルゴリズムを用いて探索する方式との比較を行った結果、提案手法が良い性能を示すことが明らかになった。研究成果はSICE Annual Conference 2005、電気学会C部門大会、第15回インテリジェントシステムシンポジウムで発表を行い、また、現在電気学会論文誌Cにて査読中である。
|