Project/Area Number |
17656285
|
Research Category |
Grant-in-Aid for Exploratory Research
|
Allocation Type | Single-year Grants |
Research Field |
Naval and maritime engineering
|
Research Institution | Kyushu University |
Principal Investigator |
木村 元 Kyushu University, 大学院・工学研究院, 准教授 (40302963)
|
Project Period (FY) |
2005 – 2007
|
Project Status |
Completed (Fiscal Year 2007)
|
Budget Amount *help |
¥3,200,000 (Direct Cost: ¥3,200,000)
Fiscal Year 2007: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2006: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2005: ¥1,900,000 (Direct Cost: ¥1,900,000)
|
Keywords | 生物的適応システム / 強化学習 / actor-critic / ランダムタイリング / Gibbsサンプリングによる行動選択 / 電気探査 / 水中センサ / ウエンナー法 |
Research Abstract |
これまでの研究実績において製作した水中電気探査装置を利用して、電気探査センサから得られたデータを解釈してより高い精度でセンサ周囲に存在する物体の形状や電気的特性を推定するための解析方法について検討を行い、前年度の研究実績において開発した順解析手法のための3次元有限要素モデルの改良を行った。データ解釈のための逆解析に必要なアルゴリズムについては、生物的適応アルゴリズムについては、高次元の状態入力と行動出力の環境においてより効率良く強化学習を行うため、割引報酬合計の期待値に関して、今までのように1次微分だけでなく2次微分の方向まで考慮に入れた「自然勾配」の方向へ政策を改善していく自然勾配Actor-Critic法に注目し、これと「適正度の履歴」を組み合わせることで、状態観測が不完全なためマルコフ性が保障されない環境下においても頑健に強化学習を行うことが可能な新しいアルゴリズムを提案した。また、前年度の研究実績において提案したランダムタイリングによる特徴量ベクトル生成方法において、ランダムタイルの個数と、任意の2入力によって生成される特徴ベクトルの線形独立性との関係を定量的に示し、空間をグリッド分割した場合との比較を行うことで、提案手法が高次元の入力空間において特徴量の爆発を防ぎつつ極めて高い汎化性能を示す理由についての定量的解析を行った。このランダムタイリングによる状態-行動空間汎化とGibbsサンプリングを用いた行動選択による高次元状態-行動空間における強化学習アルゴリズムは、ロボティクス分野において定評のある国際会議IEEE/RSJ International Conference on Intelligent Robots and Systems(IROSO7採択率49%)において研究発表を行い、新しい生物的適応アルゴリズムとして高く評価された。
|