配分額 *注記 |
6,500千円 (直接経費: 6,500千円)
2006年度: 1,300千円 (直接経費: 1,300千円)
2005年度: 1,600千円 (直接経費: 1,600千円)
2004年度: 2,100千円 (直接経費: 2,100千円)
2003年度: 1,500千円 (直接経費: 1,500千円)
|
研究概要 |
本研究は,センサ信号を直接入力とし,モータコマンドを出力とするニューラルネットを,強化学習に基づいて求められた教師信号を用いて学習させることで,必要に応じて諸機能がニユーラルネット内部に創発するとともに,それとわれわれ生物の知能形成との関係を示していくことを目的とした。そして,以下のような大きな成果が得られた。 ・シンボル処理が苦手とされるニューラルネットを用いて,2エージェント間のコミュニケーションを,単に個々のエージェントが強化学習で学習するだけで,コミュニケーション信号にノイズをのせると,ニューラルネットの出力が二値表現をするようになることを示した。また,シーケンシャルな2つの信号の場合でも表現の二値化を確認した。 ・実ロボットを使って,視覚センサ信号をニューラルネットへの入力として,画像処理,画像認識,タスクの情報を一切教えないで,箱押し行動を強化学習によって獲得させることができた。また,同じく実ロボットを使った実験で,背景にさまざまなものを置いた疑似実環境で物体到達行動を学習させ,疑似実環境でもある程度の学習ができることを示した。 ・ニューラルネットを用いて強化学習を行なうことで,同一タスクを2つのセンサ,2つのモータの4個の組み合わせのうちの3個の組み合わせで学習させたところ,選択されたセンサによらない中間層表現を獲得し,未知のセンサーモータの組み合わせの場合に,学習しなくても適切な行動ができた。空間的抽象化と関わるこの機能は,予測信号を使って抽象化させる方法では獲得できないことを指摘した。 ・リカレントニューラルネットを使って,知的な探索を学習によって獲得することを提案し,2つのゴール候補がある場合,まず近い方に行って,だめならもう一方に行くという行動が獲得された。.獲得された知識は,さらに大きな問題を解く際にも有効に使用され,時間的抽象化との関わりを指摘した。
|