【1】会話の学習におけるシンボルの発現 リカレントニューラルネットを用い、単に強化学習によってコミュニケーションを必要とするタスクの学習を行うだけで、ノイズを付加すると学習によって獲得されたコミュニケーション信号が時系列のものでも離散化し、ノイズに強いコミュニケーションが実現できることを示した。さらに、2エージェント間コミュニケーションの学習において、送信側エージェントの出力に微小な確率的要素を付加し、受信側エージェントは確率的要素を排除したグリーディな行動選択をすると学習成功率が向上することを示した。 【2】疑似実環境下での物体到達タスクの強化学習 今まで用いていた白い壁、白い床を取り除き、まわりに目標物以外の物体やカラフルな広告を置くことで疑似実環境を実現し、カラーの視覚センサ信号をそのままニューラルネットに入力して、ロボットに3種類の色をつけた目標物への到達タスクの学習を行わせた。そして、目標物への到達を学習できることを示した。ただし、目標物と同じ色を含む物体を並べて置くと、必ずしも目標物に到達できないという問題点が残った。 【3】成長型ニューラルネットによる多層構造の形成の研究→研究項目【5】に変更 【4】リカレントニューラルネットの実用的学習アルゴリズムの研究 従来連続時間を前提に定式化していたものを、解析を容易にするため、離散時間を前提とした定式化を行い、簡単な短期記憶を必要とするEXOR問題を解かせ、学習できることを確認した。 【5】報酬期待ニューロンの強化学習による発現モデル サルに複数回の試行をくり返した後に報酬がもらえるタスクをさせた際に、報酬試行以外で反応する前部帯状皮質のニューロンに着目した。そして、リカレントニューラルネットと強化学習による発現モデルを学習させた結果から、単一試行から複数試行への移行時に、適切な状態評価を実現するために一時的に現れるものである可能性を示した。
|