研究課題/領域番号 |
19K12176
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61050:知能ロボティクス関連
|
研究機関 | 熊本高等専門学校 |
研究代表者 |
本木 実 熊本高等専門学校, 電子情報システム工学系TEグループ, 教授 (40320139)
|
研究期間 (年度) |
2019-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 390千円 (直接経費: 300千円、間接経費: 90千円)
2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2019年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
|
キーワード | スパイキングニューラルネット / 強化学習 / オンチップ自律学習 / スパイキングニューロン |
研究開始時の研究の概要 |
本研究は「オンチップ自律学習」機能をもつ脳型情報処理回路の開発を最終目的とし,価値形成目的型の多層SAMスパイキングニューラルネット(SAM-SNN)を用いた強化学習の研究を行う.初年度,2年度は「中間層actorネット」と呼ぶSAM-SNNの研究を行い,学習時に1時刻戻る必要があるという課題に臨む.FPGAと呼ばれる組込みデバイスへの実装とIP化を行う.最終年度で統括し,次の自律型ロボット等開発へと繋げる.
|
研究実績の概要 |
2023年度,「オンチップ自律学習回路のための価値形成目的型SAM-SNN強化学習の研究」の主目的としてSAM-SNNによる強化学習についてこれまでの研究の流れを汲み,「目標到達タスク」を題材として研究を実施した.MLP(MultiLayer Perceptron,通常のANN)モデルによるものと,SAMによるものとを,研究室のPython言語のSAMライブラリも用いて実装し研究を進めた.また,別に「Cartpoleタスク」についても,MLPとSAMにより実施した.しかしながら,MLPでは機能するタスクが,SAMではまだ十分な課題の成功率と学習安定性を得られていない. 研究の実施途中にて,SAMの学習の挙動をさらに詳細に明らかにする必要があったため,本研究においては強化学習のサブタスクに相当する教師あり学習として極めて基本的なタスクである「MNISTデータによる手書き文字認識タスク」にてSAMの学習時の挙動を調査した.その結果,学習データ60000に対して99.29%,推論データ10000個に対して94.52%の性能を示した.タスクの性能としては,他のSNNモデルによるMNIST課題の性能と比較可能な高性能となった.また,最小二乗誤差の損失関数の表面を調査したところ通常のMLPに比べるとかなりガタガタしている粗い表面であることが明らかとなった.そのため,学習中に学習率ηを減少させるテクニックが本質的に学習速度を速めることに繋がることが判明した.この知見は本研究の目的に大きく寄与することとなる.本結果は,国際ワークショップUKCI2023にて発表した.英国や欧州の研究者と有益なディスカッションが可能となった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
主に次の2つの理由を考えている. 1つ目は,本研究を成功させるために要求される,criticの関数近似の滑らかさの精度が,当初想定していたよりも小さいこと. 2つ目は,1つ目の理由の課題をクリアするために,SAMスパイキングニューロンモデルのもつ短所(出力スパイクが実数でなくバイナリ値であること)を補うためのアイデアを試すために時間がかかっていること.
|
今後の研究の推進方策 |
今後に向けて,今後は次の2つの主な課題に取り組む. 第1の課題は,「目標到達タスク」と「Cartpoleタスク」において,学習の不安定さの解消に向けて,2023年度に得た学習に対する知見を利用し,さらにSAMニューロンモデルを原理的に見直し,criticの関数近似をより滑らかなに関数を近似できるように検討する.例えば,現在,出力側に置いてスパイクデコーディングをNFR-codingと呼ぶレートコーディングベースの独自のコーディングを用いているが,出力側は情報落ちしてしまっているスパイク出力を直接に学習に利用せずに,実数を表現できている内部ポテンシャル値を利用するなどである.これにより,推論時に連続性が担保されたより滑らかな関数近似が可能となることが期待される. 第2の課題は,上記 SAM-SNNによるactor-critic型モデルを,想定アプリケーションとして筋電-ロボットハンド制御としてのシミュレーションと実機実装を検討する.まずはシミュレーションにて検討する.筋電-ロボットハンド制御のSAM-SNNモデルとしては,入力に複数の筋電信号,出力に5指に相当する5つのactorニューロン+1つのcriticニューロンとする.tとt+1 は,指を「曲げる」→「曲げ終わる」程度の時間間隔とする. 報酬信号は,「各指の動き」5つと,「全体の動き」1つで計6個とする.「全体の動き」のみの報酬では,正しい指の動きの評価が難しいため,学習に膨大な時間がかかると予想される.そのため,5つの指別々に報酬信号を設定する.
|