オンチップ自律学習回路のための価値形成目的型SAM-SNN強化学習の研究

研究課題

研究課題/領域番号	19K12176
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61050:知能ロボティクス関連
研究機関	熊本高等専門学校
研究代表者	本木実熊本高等専門学校, 電子情報システム工学系TEグループ, 教授 (40320139)
研究期間 (年度)	2019-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	1,950千円 (直接経費: 1,500千円、間接経費: 450千円) 2021年度: 390千円 (直接経費: 300千円、間接経費: 90千円) 2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2019年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
キーワード	スパイキングニューラルネット / 強化学習 / オンチップ自律学習 / スパイキングニューロン
研究開始時の研究の概要	本研究は「オンチップ自律学習」機能をもつ脳型情報処理回路の開発を最終目的とし，価値形成目的型の多層SAMスパイキングニューラルネット（SAM-SNN)を用いた強化学習の研究を行う．初年度，2年度は「中間層actorネット」と呼ぶSAM-SNNの研究を行い，学習時に1時刻戻る必要があるという課題に臨む．FPGAと呼ばれる組込みデバイスへの実装とIP化を行う．最終年度で統括し，次の自律型ロボット等開発へと繋げる．
研究実績の概要	2023年度，「オンチップ自律学習回路のための価値形成目的型SAM-SNN強化学習の研究」の主目的としてSAM-SNNによる強化学習についてこれまでの研究の流れを汲み，「目標到達タスク」を題材として研究を実施した．MLP（MultiLayer Perceptron，通常のANN）モデルによるものと，SAMによるものとを，研究室のPython言語のSAMライブラリも用いて実装し研究を進めた．また，別に「Cartpoleタスク」についても，MLPとSAMにより実施した．しかしながら，MLPでは機能するタスクが，SAMではまだ十分な課題の成功率と学習安定性を得られていない．研究の実施途中にて，SAMの学習の挙動をさらに詳細に明らかにする必要があったため，本研究においては強化学習のサブタスクに相当する教師あり学習として極めて基本的なタスクである「MNISTデータによる手書き文字認識タスク」にてSAMの学習時の挙動を調査した．その結果，学習データ60000に対して99.29%，推論データ10000個に対して94.52%の性能を示した．タスクの性能としては，他のSNNモデルによるMNIST課題の性能と比較可能な高性能となった．また，最小二乗誤差の損失関数の表面を調査したところ通常のMLPに比べるとかなりガタガタしている粗い表面であることが明らかとなった．そのため，学習中に学習率ηを減少させるテクニックが本質的に学習速度を速めることに繋がることが判明した．この知見は本研究の目的に大きく寄与することとなる．本結果は，国際ワークショップUKCI2023にて発表した．英国や欧州の研究者と有益なディスカッションが可能となった．
現在までの達成度 (区分)	現在までの達成度 (区分) 4: 遅れている理由主に次の2つの理由を考えている． 1つ目は，本研究を成功させるために要求される，criticの関数近似の滑らかさの精度が，当初想定していたよりも小さいこと． 2つ目は，１つ目の理由の課題をクリアするために，SAMスパイキングニューロンモデルのもつ短所（出力スパイクが実数でなくバイナリ値であること）を補うためのアイデアを試すために時間がかかっていること．
今後の研究の推進方策	今後に向けて，今後は次の２つの主な課題に取り組む．第１の課題は，「目標到達タスク」と「Cartpoleタスク」において，学習の不安定さの解消に向けて，2023年度に得た学習に対する知見を利用し，さらにSAMニューロンモデルを原理的に見直し，criticの関数近似をより滑らかなに関数を近似できるように検討する．例えば，現在，出力側に置いてスパイクデコーディングをNFR-codingと呼ぶレートコーディングベースの独自のコーディングを用いているが，出力側は情報落ちしてしまっているスパイク出力を直接に学習に利用せずに，実数を表現できている内部ポテンシャル値を利用するなどである．これにより，推論時に連続性が担保されたより滑らかな関数近似が可能となることが期待される．第２の課題は，上記 SAM-SNNによるactor-critic型モデルを，想定アプリケーションとして筋電-ロボットハンド制御としてのシミュレーションと実機実装を検討する．まずはシミュレーションにて検討する．筋電-ロボットハンド制御のSAM-SNNモデルとしては，入力に複数の筋電信号，出力に5指に相当する5つのactorニューロン＋1つのcriticニューロンとする．tとt+1 は，指を「曲げる」→「曲げ終わる」程度の時間間隔とする．報酬信号は，「各指の動き」5つと，「全体の動き」1つで計6個とする．「全体の動き」のみの報酬では，正しい指の動きの評価が難しいため，学習に膨大な時間がかかると予想される．そのため，5つの指別々に報酬信号を設定する．

報告書

(5件)

研究成果
(9件)

すべて 2024 2023 2022 2021 2020 その他

すべて国際共同研究 (3件) 学会発表 (5件) (うち国際学会 2件) 図書 (1件)

[国際共同研究] Nottingham Trent University/Department of Computer Science(英国)
- 関連する報告書
  2023 実施状況報告書
[国際共同研究] Notthingham Trent University/College of Science and Technology(英国)
- 関連する報告書
  2020 実施状況報告書
[国際共同研究] Notthingham Trent University/College of Science and Technology(英国)
- 関連する報告書
  2019 実施状況報告書
[学会発表] An Evaluation of Handwriting Digit Recognition Using Multilayer SAM Spiking Neural Network2023
- 著者名/発表者名
  Minoru Motoki, Heitaro Hirooka, Youta Murakami, Ryuji Waseda and Terumitsu Nishimuta
- 学会等名
  The 22nd UK Workshop on Computational Intelligence (UKCI2023)
- 関連する報告書
  2023 実施状況報告書
[学会発表] Actor-Critic Reinforcement Learning Using On-Chip Trainable Multilayer SAM Spiking Neural Network2022
- 著者名/発表者名
  Minoru Motoki, Yu Oshiro, Ryuji Waseda, and Terumitsu Nishimuta
- 学会等名
  4th International symposium of neuromorphic AI hardware
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] SAMスパイキングニューロンモデルの頻度コーディングにおける基本特性2021
- 著者名/発表者名
  本木　実
- 学会等名
  電子情報通信学会ニューロコンピューティング研究会
- 関連する報告書
  2021 実施状況報告書
[学会発表] An FPGA Implementation of On-Chip Trainable Multilayer SAM Spiking Neural Network2021
- 著者名/発表者名
  Minoru Motoki, Terumitsu Nishimuta, Ryuji Waseda
- 学会等名
  The 9th IIAE International Conference on Industrial Application Engineering 2020
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] SAMスパイキングニューラルネットによる関数近似の性能評価2020
- 著者名/発表者名
  本木実，西牟田輝満
- 学会等名
  令和元年度電気学会全国大会
- 関連する報告書
  2019 実施状況報告書
[図書] Advances in Computational Intelligence Systems （このうち1章分）2024
- 著者名/発表者名
  Minoru Motoki, Heitaro Hirooka, Youta Murakami, Ryuji Waseda and Terumitsu Nishimuta
- 総ページ数
  8
- 出版者
  SPRINGER
- ISBN
  9783031475078
- 関連する報告書
  2023 実施状況報告書

オンチップ自律学習回路のための価値形成目的型SAM-SNN強化学習の研究

研究代表者

本木 実 熊本高等専門学校, 電子情報システム工学系TEグループ, 教授 (40320139)

1,950千円 (直接経費: 1,500千円、間接経費: 450千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[国際共同研究] Nottingham Trent University/Department of Computer Science(英国)

関連する報告書

[国際共同研究] Notthingham Trent University/College of Science and Technology(英国)

関連する報告書

[国際共同研究] Notthingham Trent University/College of Science and Technology(英国)

関連する報告書

[学会発表] An Evaluation of Handwriting Digit Recognition Using Multilayer SAM Spiking Neural Network2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Actor-Critic Reinforcement Learning Using On-Chip Trainable Multilayer SAM Spiking Neural Network2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] SAMスパイキングニューロンモデルの頻度コーディングにおける基本特性2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] An FPGA Implementation of On-Chip Trainable Multilayer SAM Spiking Neural Network2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] SAMスパイキングニューラルネットによる関数近似の性能評価2020

著者名/発表者名

学会等名

関連する報告書

[図書] Advances in Computational Intelligence Systems （このうち1章分）2024

著者名/発表者名

総ページ数

出版者

ISBN

関連する報告書

本木実熊本高等専門学校, 電子情報システム工学系TEグループ, 教授 (40320139)