2003 Fiscal Year Annual Research Report

新しい進化論的計算手法「遺伝的ネットワークプログラミング」による知的制御の研究

Research Project

Project/Area Number	03J07927
Research Institution	Waseda University
Principal Investigator	間普真吾早稲田大学, 情報生産システム研究科, 特別研究員(DC1)
Keywords	遺伝的アルゴリズム / 遺伝的プログラミング / 遺伝的ネットワークプログラミング / 進化論的計算手法 / グラフ構造 / 強化学習 / エージェント
Research Abstract	今年度は、遺伝的ネットワークプログラミング(GNP)の性能向上を目的として、アルゴリズムの改良を行い、その性能をベンチマーク問題において検証した。従来、進化と学習という2つの概念は工学的には分けて考えられることが多かった。これは進化の概念は複数の個体(プログラム)が存在し、タスク終了後にその中から優れた個体が生き残り、交叉や突然変異といった遺伝的操作が行われることでよい個体が生成されていくという考え方であるのに対し、学習の概念は1つの個体がタスク実行中にプログラムの変更を行うという違いがあったためである。しかし、本研究ではこれらの2つの概念をうまくGNPのプログラムの生成に用い、解の探索精度、および探索速度の向上を実現した。具体的には、タスク実行中に学習を行うことで、実行中に得られる情報を効率的にプログラムの生成に用いることができ、タスク終了後に進化を行うことで大域探索に優れているといわれる進化の機能を十分に活用できるようになった。さらに、学習のアルゴリズムには、強化学習を用いているが、強化学習を用いる際にしばしば問題となるのが状態数の多さである。しかし、本研究ではGNPのグラフ構造を利用して適切な状態の定義を行うことで状態数を非常に少なく設定することが可能となった。これにより、計算時間を矩縮できることに加え、実行に必要なメモリも大幅に削減することができた。以上の学習・進化型GNPを代表的なベンチマーク問題である、タイルワールド問題と迷路問題に適用しその性能評価を行ったところ、これまでに提案してきた進化のみに基づいたGNPよりよい結果を示すことが明らかになった。