1996 年度実績報告書

センサ信号統合化学習と強化学習の融合に関する研究

研究課題

研究課題/領域番号	08233204
研究機関	東京大学
研究代表者	柴田克成東京大学, 先端科学技術研究センター, 助手 (10260522)
研究分担者	北川学東京大学, 先端科学技術研究センター, 助手 (30110711) 岡部洋一東京大学, 先端科学技術研究センター, 教授 (50011169)
キーワード	強化学習 / 視覚センサ信号 / 時間変化量一低化学習 / 時間軸スムージング学習 / 中間層ニューロン / ニューラルネット
研究概要	本研究では、センサ信号統合化学習と強化学習を融合することにより、視覚センサのように、局所的な受容野しか持たない多数のセンサセルの信号から目的達成のための動作の生成法を学習によって柔軟かつ効率的に獲得することを目指した。強化学習の中で、目的達成までの所要時間を現在の状態から予測することを学習するために、筆者らはニューラルネットを用いて予測(評価)値を計算させ、時間による2階微分値を0に近づけるという時間軸スムージング学習によってそのニューラルネットを学習させてきた。しかし、本研究を進めることにより、複数経路での評価等を考慮すると、予測値の時間の2階微分値を0にするだけでなく、時間変化量を一定化することが必要であることがわかった。さらに、時間変化量を一定にする学習において、現在の予測値を基準に、過去の予測値を学習させるという方法を採る必要があることもわかった。そして、この方法を用いることにより、結果的に、センサ信号の統合化学習を用いなくても、視覚センサ信号を直接強化学習で扱うことができることがわかった。従来、視覚センサ信号を用いて強化学習をさせる場合には、視覚センサ信号を人間が作ったプログラムにより前処理し、複数の離散な状態空間に分割して、各状態に対する動作を学習させてきた。従って、適応性という点で問題があった。しかし、本方法を用いることにより、単純な問題の場合には、視覚センサ信号を直接入力しても学習できることがわかった。そして、その際にニューラルネットの中間層ニューロンが、局所的な受容野しか持たないセンサの信号を統合し、空間情報を効率的に表現していることがわかった。また、システムの動作特性を変えてシミュレーションすることにより、中間層ニューロンが、学習に必要な部分を拡大して表現するといった適応能力があることがわかった。

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] K.Shibata: "Reinforcement Leavning when Viasual Sensory Signals are Directly Given as InPuts" Proc.of ICNN'97. (1997)
[文献書誌] 柴田克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会第7回全国大会講演論文集. 144-145 (1996)
[文献書誌] 柴田克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会第7回全国大会講演論文集. 178-179 (1996)
[文献書誌] 柴田克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)
[文献書誌] 柴田克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)
[文献書誌] 柴田克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)

1996 年度 実績報告書

センサ信号統合化学習と強化学習の融合に関する研究

研究代表者

柴田 克成 東京大学, 先端科学技術研究センター, 助手 (10260522)

研究成果

[文献書誌] K.Shibata: "Reinforcement Leavning when Viasual Sensory Signals are Directly Given as InPuts" Proc.of ICNN'97. (1997)

[文献書誌] 柴田 克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会 第7回全国大会講演論文集. 144-145 (1996)

[文献書誌] 柴田 克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会 第7回全国大会講演論文集. 178-179 (1996)

[文献書誌] 柴田 克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)

[文献書誌] 柴田 克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)

[文献書誌] 柴田 克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)

1996 年度実績報告書

柴田克成東京大学, 先端科学技術研究センター, 助手 (10260522)

[文献書誌] 柴田克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会第7回全国大会講演論文集. 144-145 (1996)

[文献書誌] 柴田克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会第7回全国大会講演論文集. 178-179 (1996)

[文献書誌] 柴田克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)

[文献書誌] 柴田克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)

[文献書誌] 柴田克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)