Feature Representation Learning and Imagined Speech Recognition by Simultaneous Recording of Spoken Language Stimuli and EEG

Research Project

Project/Area Number	22K19828
Research Category	Grant-in-Aid for Challenging Research (Exploratory)
Allocation Type	Multi-year Fund
Review Section	Medium-sized Section 62:Applied informatics and related fields
Research Institution	Shizuoka University
Principal Investigator	甲斐充彦静岡大学, 工学部, 准教授 (60283496)
Co-Investigator(Kenkyū-buntansha)	中川聖一中部大学, 工学部, 客員教授 (20115893) 山本一公中部大学, 工学部, 教授 (40324230)
Project Period (FY)	2022-06-30 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2022: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Keywords	脳波 / 想起音声認識 / 深層学習 / 特徴表現学習 / 位相特徴 / 注意機構 / 自己教師あり学習 / 特徴表現 / ブレインコンピュータインターフェース（BCI） / 表現学習
Outline of Research at the Start	口唇や舌などの発声器官を動かさないで言葉を想起した場合に生じる頭皮脳波(EEG)を用いて、発声しようとした言葉を認識する想起音声認識システムを開発する。脳内活動を知るセンサーの中でEEGは脳コンピュータインタフェース（BCI）向けに有望であるが、脳内活動以外の影響が極めて大きく、単純な単語想起でも実用的な精度が得られていない。そこで、音声情報処理や深層学習分野での知見を活用し、(a)脳波に重畳する脳活動以外の影響の除去や特徴抽出法の開発、(b)想起音声特徴を捉える脳波収録法と特徴表現学習法の開発、(c)想起音声の認識モデルおよび学習データ生成手法の開発、の3点を計画実施して改善を図る。
Outline of Annual Research Achievements	本研究課題では、言葉を想起した場合に生じる頭皮脳波(EEG)を用いて、想起した音声を認識する技術を開発する。今年度は、前年度に提案していた2つの想起音声認識モデルの効果の分析と比較、さらに特徴表現学習の観点を改善した手法の開発を進めた。１つ目のモデルは、複数チャンネル信号から時空間の関係を捉えるため、人手により考案した特徴表現としてチャンネル間の相対位相特徴量と振幅スペクトル特徴量を入力に併用したMLP識別モデル、２つ目のモデルは、畳み込みニューラルネットワーク（CNN）と注意機構の併用によって特徴表現学習を強化したモデルである。想起音素の母音子音の２クラス識別タスクとして評価実験を進めた。同一音素を5回繰り返し想起した5秒間の脳波データに対して、5秒分を一括して用いた場合と1秒単位に分割した脳波データを用いる場合との2通りの条件で、モデル構築と識別方法による性能の違いを詳細に調査した。その結果、1秒単位に分割した脳波データでは、相対位相特徴量を用いたモデルは、CNNベースのモデルよりも有意に高い71％の識別性能を得た。一方、繰り返し想起時の5秒間の脳波データを用いる条件では、2つのモデルでほぼ同等の75%程度の識別性能を得た（国内学会、国際会議で成果発表）。これらの結果から、研究計画の課題の一つとしている特徴表現学習法の改善において、時間構造の考慮が重要であることが分かった。上記の結果を踏まえ、近年の言語・音声処理タスクで大きな効果が示されている自己教師あり学習（SSL）を、脳波からの特徴抽出段階のモデル構築に用いる方法を新たに考案し、評価実験を進めた。脳波データを時間的に等間隔に分割した複数のスライスから次のスライスを予測するタスク設定で学習したエンコーダを、CNNベースのモデルの前段に適用した。その結果、被験者12名中の11名で識別性能が改善された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 当初の計画のうち、想起音声特徴を捉える特徴表現学習法の改善については、予定通り進めることができた。もう一つの計画として、想起音声特徴を捉えるための脳波データ収録の検討があったが、本研究開始後の脳波処理の関連研究で画像処理タスクの大規模事前学習モデルや異なる脳波処理タスクからの転移学習の効果が大きい事例が複数報告されており、事前学習モデルや関連タスクで公開されている比較的大規模な脳波データセットの入手が可能であるため、それらを用いた研究計画を進めることを優先した。
Strategy for Future Research Activity	今年度までに考案してきた想起音声認識モデルの評価分析から、脳波データの特徴表現学習の観点での改善が実証されてきた。しかし、これまでは1つの脳波センサーで収録された音声想起の脳波データセットのみを用いてきたので、ニューラルネットワークの学習にはデータ規模が小さい問題があった。一方、言語や音声処理など他分野では複数ドメインのデータセットの利用による自己教師あり学習や大規模事前学習モデルが大きな成果を示している。そこで、本課題においても既に関連タスクで公開された脳波データセットや、画像処理分野での大規模事前学習モデルを入手して新たなモデル構築法の検討を開始しており、自己教師あり学習および転移学習の観点からもモデル改善を図る。また、これまでは音素の識別タスクを想定した脳波データのみを対象としていた。今後は、単語単位の音声想起の脳波データを想起音声認識タスクの評価対象として加え、時間構造を捉えた特徴表現学習と認識モデルの改善を併せて進める。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(3 results)

All 2023

All Presentation (3 results) (of which Int'l Joint Research: 2 results)

[Presentation] Attention-based CNN and Relative Phase Feature Modeling for Improved Imagined Speech Recognition2023
- Author(s)
  Niimura Yoshiki、Takemoto Jun、Kai Atsuhiko、Nakagawa Seiichi
- Organizer
  2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] AttentionベースCNNと相対位相特徴によるEEGに基づく想起音声認識の改善2023
- Author(s)
  新村嘉基，竹本淳，甲斐充彦，中川聖一
- Organizer
  第10回サイレント音声認識ワークショップ(SSRW2023)
- Related Report
  2023 Research-status Report
[Presentation] Dialect Speech Recognition Modeling using Corpus of Japanese Dialects and Self-Supervised Learning-based Model XLSR2023
- Author(s)
  Miwa Shogo、Kai Atsuhiko
- Organizer
  INTERSPEECH 2023
- Related Report
  2023 Research-status Report
- Int'l Joint Research

Feature Representation Learning and Imagined Speech Recognition by Simultaneous Recording of Spoken Language Stimuli and EEG

Principal Investigator

甲斐 充彦 静岡大学, 工学部, 准教授 (60283496)

¥6,240,000 (Direct Cost: ¥4,800,000、Indirect Cost: ¥1,440,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Attention-based CNN and Relative Phase Feature Modeling for Improved Imagined Speech Recognition2023

Author(s)

Organizer

Related Report

[Presentation] AttentionベースCNNと相対位相特徴によるEEGに基づく想起音声認識の改善2023

Author(s)

Organizer

Related Report

[Presentation] Dialect Speech Recognition Modeling using Corpus of Japanese Dialects and Self-Supervised Learning-based Model XLSR2023

Author(s)

Organizer

Related Report

甲斐充彦静岡大学, 工学部, 准教授 (60283496)