センサ信号統合化学習と強化学習の融合に関する研究

Research Project

Project/Area Number	08233204
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	The University of Tokyo
Principal Investigator	柴田克成東京大学, 先端科学技術研究センター, 助手 (10260522)
Co-Investigator(Kenkyū-buntansha)	北川学東京大学, 先端科学技術研究センター, 助手 (30110711) 岡部洋一東京大学, 先端科学技術研究センター, 教授 (50011169)
Project Period (FY)	1996
Project Status	Completed (Fiscal Year 1996)
Budget Amount *help	¥3,000,000 (Direct Cost: ¥3,000,000) Fiscal Year 1996: ¥3,000,000 (Direct Cost: ¥3,000,000)
Keywords	強化学習 / 視覚センサ信号 / 時間変化量一低化学習 / 時間軸スムージング学習 / 中間層ニューロン / ニューラルネット
Research Abstract	本研究では、センサ信号統合化学習と強化学習を融合することにより、視覚センサのように、局所的な受容野しか持たない多数のセンサセルの信号から目的達成のための動作の生成法を学習によって柔軟かつ効率的に獲得することを目指した。強化学習の中で、目的達成までの所要時間を現在の状態から予測することを学習するために、筆者らはニューラルネットを用いて予測(評価)値を計算させ、時間による2階微分値を0に近づけるという時間軸スムージング学習によってそのニューラルネットを学習させてきた。しかし、本研究を進めることにより、複数経路での評価等を考慮すると、予測値の時間の2階微分値を0にするだけでなく、時間変化量を一定化することが必要であることがわかった。さらに、時間変化量を一定にする学習において、現在の予測値を基準に、過去の予測値を学習させるという方法を採る必要があることもわかった。そして、この方法を用いることにより、結果的に、センサ信号の統合化学習を用いなくても、視覚センサ信号を直接強化学習で扱うことができることがわかった。従来、視覚センサ信号を用いて強化学習をさせる場合には、視覚センサ信号を人間が作ったプログラムにより前処理し、複数の離散な状態空間に分割して、各状態に対する動作を学習させてきた。従って、適応性という点で問題があった。しかし、本方法を用いることにより、単純な問題の場合には、視覚センサ信号を直接入力しても学習できることがわかった。そして、その際にニューラルネットの中間層ニューロンが、局所的な受容野しか持たないセンサの信号を統合し、空間情報を効率的に表現していることがわかった。また、システムの動作特性を変えてシミュレーションすることにより、中間層ニューロンが、学習に必要な部分を拡大して表現するといった適応能力があることがわかった。

Report

(1 results)

1996 Annual Research Report

Research Products
(6 results)

All Other

All Publications (6 results)

[Publications] K.Shibata: "Reinforcement Leavning when Viasual Sensory Signals are Directly Given as InPuts" Proc.of ICNN'97. (1997)
- Related Report
  1996 Annual Research Report
[Publications] 柴田克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会第7回全国大会講演論文集. 144-145 (1996)
- Related Report
  1996 Annual Research Report
[Publications] 柴田克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会第7回全国大会講演論文集. 178-179 (1996)
- Related Report
  1996 Annual Research Report
[Publications] 柴田克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)
- Related Report
  1996 Annual Research Report
[Publications] 柴田克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)
- Related Report
  1996 Annual Research Report
[Publications] 柴田克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)
- Related Report
  1996 Annual Research Report

センサ信号統合化学習と強化学習の融合に関する研究

Principal Investigator

柴田 克成 東京大学, 先端科学技術研究センター, 助手 (10260522)

¥3,000,000 (Direct Cost: ¥3,000,000)

Report

Research Products

[Publications] K.Shibata: "Reinforcement Leavning when Viasual Sensory Signals are Directly Given as InPuts" Proc.of ICNN'97. (1997)

Related Report

[Publications] 柴田 克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会 第7回全国大会講演論文集. 144-145 (1996)

Related Report

[Publications] 柴田 克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会 第7回全国大会講演論文集. 178-179 (1996)

Related Report

[Publications] 柴田 克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)

Related Report

[Publications] 柴田 克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)

Related Report

[Publications] 柴田 克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)

Related Report

柴田克成東京大学, 先端科学技術研究センター, 助手 (10260522)

[Publications] 柴田克成: "視覚センサ信号を入力とした遅延強化学習" 日本神経回路学会第7回全国大会講演論文集. 144-145 (1996)

[Publications] 柴田克成: "時間軸スムージング学習と局所センサ信号の統合" 日本神経回路学会第7回全国大会講演論文集. 178-179 (1996)

[Publications] 柴田克成: "時間軸スムージング学習による局所センサ信号の統合と空間情報の抽出" 日本神経回路学会誌. 3巻・3号. 98-105 (1996)

[Publications] 柴田克成: "相関情報抽出ネットと空間認識能力の教師なし学習" 日本神経回路学会誌. 3巻・1号. 11-16 (1996)

[Publications] 柴田克成: "強化学習による能動認識能力の学習" 日本神経回路学会誌. 3巻・4号. 126-134 (1996)