研究課題/領域番号 |
22K19828
|
研究機関 | 静岡大学 |
研究代表者 |
甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)
|
研究分担者 |
中川 聖一 中部大学, 工学部, 客員教授 (20115893)
山本 一公 中部大学, 工学部, 教授 (40324230)
|
研究期間 (年度) |
2022-06-30 – 2025-03-31
|
キーワード | 脳波 / 想起音声認識 / 深層学習 / 特徴表現学習 / 位相特徴 / 注意機構 / 自己教師あり学習 |
研究実績の概要 |
本研究課題では、言葉を想起した場合に生じる頭皮脳波(EEG)を用いて、想起した音声を認識する技術を開発する。今年度は、前年度に提案していた2つの想起音声認識モデルの効果の分析と比較、さらに特徴表現学習の観点を改善した手法の開発を進めた。1つ目のモデルは、複数チャンネル信号から時空間の関係を捉えるため、人手により考案した特徴表現としてチャンネル間の相対位相特徴量と振幅スペクトル特徴量を入力に併用したMLP識別モデル、2つ目のモデルは、畳み込みニューラルネットワーク(CNN)と注意機構の併用によって特徴表現学習を強化したモデルである。
想起音素の母音子音の2クラス識別タスクとして評価実験を進めた。同一音素を5回繰り返し想起した5秒間の脳波データに対して、5秒分を一括して用いた場合と1秒単位に分割した脳波データを用いる場合との2通りの条件で、モデル構築と識別方法による性能の違いを詳細に調査した。その結果、1秒単位に分割した脳波データでは、相対位相特徴量を用いたモデルは、CNNベースのモデルよりも有意に高い71%の識別性能を得た。一方、繰り返し想起時の5秒間の脳波データを用いる条件では、2つのモデルでほぼ同等の75%程度の識別性能を得た(国内学会、国際会議で成果発表)。これらの結果から、研究計画の課題の一つとしている特徴表現学習法の改善において、時間構造の考慮が重要であることが分かった。
上記の結果を踏まえ、近年の言語・音声処理タスクで大きな効果が示されている自己教師あり学習(SSL)を、脳波からの特徴抽出段階のモデル構築に用いる方法を新たに考案し、評価実験を進めた。脳波データを時間的に等間隔に分割した複数のスライスから次のスライスを予測するタスク設定で学習したエンコーダを、CNNベースのモデルの前段に適用した。その結果、被験者12名中の11名で識別性能が改善された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画のうち、想起音声特徴を捉える特徴表現学習法の改善については、予定通り進めることができた。もう一つの計画として、想起音声特徴を捉えるための脳波データ収録の検討があったが、本研究開始後の脳波処理の関連研究で画像処理タスクの大規模事前学習モデルや異なる脳波処理タスクからの転移学習の効果が大きい事例が複数報告されており、事前学習モデルや関連タスクで公開されている比較的大規模な脳波データセットの入手が可能であるため、それらを用いた研究計画を進めることを優先した。
|
今後の研究の推進方策 |
今年度までに考案してきた想起音声認識モデルの評価分析から、脳波データの特徴表現学習の観点での改善が実証されてきた。しかし、これまでは1つの脳波センサーで収録された音声想起の脳波データセットのみを用いてきたので、ニューラルネットワークの学習にはデータ規模が小さい問題があった。一方、言語や音声処理など他分野では複数ドメインのデータセットの利用による自己教師あり学習や大規模事前学習モデルが大きな成果を示している。そこで、本課題においても既に関連タスクで公開された脳波データセットや、画像処理分野での大規模事前学習モデルを入手して新たなモデル構築法の検討を開始しており、自己教師あり学習および転移学習の観点からもモデル改善を図る。
また、これまでは音素の識別タスクを想定した脳波データのみを対象としていた。今後は、単語単位の音声想起の脳波データを想起音声認識タスクの評価対象として加え、時間構造を捉えた特徴表現学習と認識モデルの改善を併せて進める。
|
次年度使用額が生じた理由 |
これまでの研究期間で当初は追加で脳波データを収録する予定であったが、進捗状況として述べているように外部から入手できる実験用データセットで当面の研究計画を進めることが可能となったのでデータ収録用の機材購入費を必要とせず、次年度使用額が発生した。今後は追加でのデータ収録および成果発表を予定しており、次年度使用額の分はその費用に充てる。
|