2022 年度実施状況報告書

日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究

研究課題

研究課題/領域番号	22K12168
研究機関	神戸大学
研究代表者	高島遼一神戸大学, 都市安全研究センター, 准教授 (50846102)
研究期間 (年度)	2022-04-01 – 2025-03-31
キーワード	音声認識 / 音響イベント分類 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク
研究実績の概要	本研究では、構音障害者のコミュニケーション支援のための障害者音声認識技術、および安全監視のための音響イベント検出技術の開発を目的とし、障害者の学習音声データおよび検出すべき異常イベントの学習データの収集が困難であるという課題を解決するコア技術として「自己教師有り学習と日常会話収録音声を用いた障害者音声認識モデル学習」と「学習データに存在しない音響イベントを検出するゼロショット学習」を開発している。障害者音声認識モデルの学習においては、収録が比較的容易だが教師ラベルの付与が困難な日常会話収録音を自己教師あり学習の一つであるwav2vec2.0の枠組みを用いて音声認識モデルの学習に活用する手法を検討した。wav2vec2.0は健常者音声認識の分野では高い認識性能を示す技術であるが、データ量の少ない構音障害者音声認識においてはまだ十分に検証がされていなかった。本研究では、660時間という比較的大規模の日本語健常者音声を用いてwav2vec2.0を初期学習し、さらに複数の構音障害者音声を用いて追加学習することで、wav2vec2.0による音声認識性能を向上できることを明らかとした。音響イベント検出においては、音声を入力してイベント名を出力するという従来の教師あり学習に対して、本研究ではイベント名の代わりにそのイベントを説明する属性（例えば「ドアをノックする音」というイベントの属性は「木の音」、「打撃音」、「同じ音が繰り返される」）を出力するように学習することで、未知のイベントを認識可能とする「属性情報に基づく音のゼロショット学習技術」を新たに開発した。さらに画像分野で提案されたAttribute prototype networkを用いることで、前述のゼロショット学習の性能を向上させることができた。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由構音障害者音声認識の研究においては、当初の予定通りにwav2vec2.0の障害者日常会話音声に適用を実施し、その有効性を検証することができた。音響イベント分類の研究においては、今年度は主に実験環境とベースライン技術の構築を予定していたが、これに加えてAttribute prototype networkによる性能改善まで行えた。これらの成果は国際会議であるGCCE2022で発表済みであり、ICASSP2023でも発表予定である。また全国大会である日本音響学会2022年研究発表会などでも発表済みである。
今後の研究の推進方策	構音障害者音声認識においては、HuBERTなど、wav2vec2.0以外の自己教師あり学習手法の比較検証を行うとともに、それらの性能改善をするための手法を検討する。また構音障害者音声の収録も継続していく。音響イベント分類においては、より多様な音響イベントを分類可能にするための属性情報の拡張や、定義した属性情報を高精度に推定するためのニューラルネットモデルの改善を行う。また、転倒などの異常イベント検出といった、より現実に近い設定での検証も行っていく。

研究成果
(8件)

すべて 2023 2022 その他

すべて学会発表 (7件) (うち国際学会 1件) 備考 (1件)

[学会発表] 音響イベントのゼロショット学習における属性情報の拡張2023
- 著者名/発表者名
  Lin Yi-Han, 高島遼一, 滝口哲也
- 学会等名
  日本音響学会2023年春季研究発表会講演論文集
[学会発表] wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識2023
- 著者名/発表者名
  日本音響学会2023年春季研究発表会講演論文集
- 学会等名
  日本音響学会2023年春季研究発表会講演論文集
[学会発表] 器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入2023
- 著者名/発表者名
  冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
- 学会等名
  日本音響学会2023年春季研究発表会講演論文集
[学会発表] Binary Attribute Embeddings for Zero-Shot Sound Event Classification2022
- 著者名/発表者名
  Yihan Lin, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi
- 学会等名
  IEEE GCCE
- 国際学会
[学会発表] Attribute Prototype Networkを用いた音響イベントのゼロショット学習2022
- 著者名/発表者名
  LIN YIHAN, 高島遼一, 滝口哲也
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
[学会発表] 器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討2022
- 著者名/発表者名
  冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
[学会発表] wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識2022
- 著者名/発表者名
  松坂勇樹, 高島遼一, 滝口哲也
- 学会等名
  日本音響学会2022年秋季研究発表会講演論文集
[備考] 研究者webページ
- URL
  http://www.me.cs.scitec.kobe-u.ac.jp/~rtakashima/

2022 年度 実施状況報告書

日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究

研究代表者

高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 音響イベントのゼロショット学習における属性情報の拡張2023

著者名/発表者名

学会等名

[学会発表] wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識2023

著者名/発表者名

学会等名

[学会発表] 器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入2023

著者名/発表者名

学会等名

[学会発表] Binary Attribute Embeddings for Zero-Shot Sound Event Classification2022

著者名/発表者名

学会等名

[学会発表] Attribute Prototype Networkを用いた音響イベントのゼロショット学習2022

著者名/発表者名

学会等名

[学会発表] 器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討2022

著者名/発表者名

学会等名

[学会発表] wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識2022

著者名/発表者名

学会等名

[備考] 研究者webページ

URL

2022 年度実施状況報告書

高島遼一神戸大学, 都市安全研究センター, 准教授 (50846102)