日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究

Research Project

Project/Area Number	22K12168
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	Kobe University
Principal Investigator	高島遼一神戸大学, 都市安全研究センター, 准教授 (50846102)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Keywords	音声認識 / 音響イベント分類 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク / 音響監視
Outline of Research at the Start	本研究では、構音障害者のコミュニケーション支援のための障害者音声認識技術、および安全監視のための音響イベント検出技術の開発を目的とする。この目的において、音声認識および異常イベントの学習データの収集が困難であることが課題である。そこで本研究では「自己教師有り学習と日常会話収録音声を用いた障害者音声認識モデル学習」と「学習データに存在しない音響イベントを検出するゼロショット学習」をコア技術とし、常時収録による障害者の安全監視・音声認識・学習データ自動収集を同時に行うシステムを検討する。実用レベルの構音障害者音声認識の実現、および未知の異常データを検知する実現可能性検証を目標とする。
Outline of Annual Research Achievements	構音障害者音声認識においては、昨年度に検討した自己教師あり学習による日常会話音声の音声認識モデル学習への活用手法について、さらなる改良を検討した。昨年度に検討したwav2vec2.0による自己教師あり学習法は、教師ラベル（発話内容ラベル）が存在しない日常会話音を学習データとして利用可能にした。しかしこの手法は教師ラベルを使用しないため、音声認識モデルの学習において間接的にしか日常会話音を利用できていなかった。今年度は、自己教師あり学習に加え、音声認識によって得られた認識結果を擬似的な教師ラベルとして用いる手法を検討した。その結果、脳性麻痺者音声認識の実験において昨年度よりも高い音声認識性能を得られた。音声認識に関しては今年度の新たな試みとして、吃音者音声認識の検討を開始した。吃音は構音障害ではないが、発話時に連発や難発といった症状が出るため、健常者と比べて音声認識率が低下する課題がある。本研究では、吃音者音声の学習データ中に連発が発生した箇所に連発ラベルを付与し、その学習データを用いることで、連発検出と音声認識を同時に行うモデルを開発した。音声認識実験を行い、検出した連発箇所を音声認識させないようにすることで、音声認識率を向上させることが示された。音響イベント分類においては、昨年度に検討したゼロショット音響イベント分類手法について、さらなる改良を検討した。昨年度に検討した音の属性情報に基づくゼロショット学習手法は、定義した属性（例えば「打撃音」や「金属音」）の種類不足により、原理的に分類が不可能なイベントクラスが多数存在していた。今年度は、打撃音に対する「コン」や「トン」といった音の言語表現であるオノマトペを属性情報に加えることで、より詳細な分類を行う手法を検討した。実験の結果、昨年度の手法に加えてさらに高い性能でゼロショット分類が可能であることが示された。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音声認識の研究においては、昨年度に検討した日常会話音声の音声認識モデルへの活用方法を改良し、さらに性能改善することができた。またこの研究と並行して、新たに吃音者音声認識の検討を開始し、従来の音声認識手法と比べて高い性能の認識モデルを構築することができた。音響イベント分類の研究においても、昨年度に検討した属性情報に基づくゼロショット学習手法に対して、当初の予定通り属性情報の拡張によって性能改善をすることができた。これらの成果はジャーナル論文であるIEEE Access、国際会議であるICASSP2023、国内会議である日本音響学会2023年研究発表会などで発表した。
Strategy for Future Research Activity	構音障害者音声認識においては、引き続きwav2vec2.0ベースの自己教師あり学習手法をさらに改良することで性能改善を検討する。また吃音者音声認識についても今年度は検討に含めなかった難発や伸発の問題についても検討していく。音響イベント分類においては、生成ベースのゼロショット学習手法などを用いることで、性能改善を検討する。また、これまで開発した認識システムを用いて、構音障害者を対象とした実証実験も行っていく。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(12 results)

All 2024 2023 2022 Other

All Journal Article (1 results) Presentation (10 results) (of which Int'l Joint Research: 2 results) Remarks (1 results)

[Journal Article] Dysarthric Speech Recognition Using Pseudo-Labeling, Self-Supervised Feature Learning, and a Joint Multi-Task Learning Approach2024
- Author(s)
  Takashima Ryoichi, Sawa Yuya, Aihara Ryo, Takiguchi Tetsuya, Imai Yoshie
- Journal Title
  
  IEEE Access
  
  Volume: 12 Pages: 36990-36999
- DOI
  10.1109/access.2024.3374874
- Related Report
  2023 Research-status Report
[Presentation] wav2vec 2.0と疑似ラベリングを活用した脳性麻痺者の音声認識2024
- Author(s)
  松坂勇樹, 高島遼一, 滝口哲也
- Organizer
  日本音響学会2024年春季研究発表会講演論文集
- Related Report
  2023 Research-status Report
[Presentation] Zero-Shot Sound Event Classification Using a Sound Attribute Vector with Global and Local Feature Learning2023
- Author(s)
  Yihan Lin, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi
- Organizer
  2023 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 吃音者の音声認識における連発ラベル導入による連発箇所の検出2023
- Author(s)
  松坂勇樹, 高島遼一, 安井美鈴, 滝口哲也
- Organizer
  日本音響学会2023年秋季研究発表会講演論文集
- Related Report
  2023 Research-status Report
[Presentation] 音響イベントのゼロショット学習における属性情報の拡張2023
- Author(s)
  Lin Yi-Han, 高島遼一, 滝口哲也
- Organizer
  日本音響学会2023年春季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識2023
- Author(s)
  日本音響学会2023年春季研究発表会講演論文集
- Organizer
  日本音響学会2023年春季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] 器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入2023
- Author(s)
  冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
- Organizer
  日本音響学会2023年春季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] Binary Attribute Embeddings for Zero-Shot Sound Event Classification2022
- Author(s)
  Yihan Lin, Xunquan Chen, Ryoichi Takashima, Tetsuya Takiguchi
- Organizer
  IEEE GCCE
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] Attribute Prototype Networkを用いた音響イベントのゼロショット学習2022
- Author(s)
  LIN YIHAN, 高島遼一, 滝口哲也
- Organizer
  日本音響学会2022年秋季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] 器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討2022
- Author(s)
  冨士原健斗, 高島遼一, 杉山千尋, 田中信和, 野原幹司, 野崎一徳, 滝口哲也
- Organizer
  日本音響学会2022年秋季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識2022
- Author(s)
  松坂勇樹, 高島遼一, 滝口哲也
- Organizer
  日本音響学会2022年秋季研究発表会講演論文集
- Related Report
  2022 Research-status Report
[Remarks] 研究者webページ
- URL
  http://www.me.cs.scitec.kobe-u.ac.jp/~rtakashima/
- Related Report
  2023 Research-status Report 2022 Research-status Report

日常生活音を活用した構音障害者のための音響監視および音声認識システムの研究

Principal Investigator

高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)

¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)

Current Status of Research Progress

Reason

Report

Research Products

[Journal Article] Dysarthric Speech Recognition Using Pseudo-Labeling, Self-Supervised Feature Learning, and a Joint Multi-Task Learning Approach2024

Author(s)

Journal Title

DOI

Related Report

[Presentation] wav2vec 2.0と疑似ラベリングを活用した脳性麻痺者の音声認識2024

Author(s)

Organizer

Related Report

[Presentation] Zero-Shot Sound Event Classification Using a Sound Attribute Vector with Global and Local Feature Learning2023

Author(s)

Organizer

Related Report

[Presentation] 吃音者の音声認識における連発ラベル導入による連発箇所の検出2023

Author(s)

Organizer

Related Report

[Presentation] 音響イベントのゼロショット学習における属性情報の拡張2023

Author(s)

Organizer

Related Report

[Presentation] wav2vec 2.0によるラベル無し複数患者音声を用いた脳性麻痺患者の音声認識2023

Author(s)

Organizer

Related Report

[Presentation] 器質性構音障害者音声認識のための簡易ラベルによる中間層ロスの導入2023

Author(s)

Organizer

Related Report

[Presentation] Binary Attribute Embeddings for Zero-Shot Sound Event Classification2022

Author(s)

Organizer

Related Report

[Presentation] Attribute Prototype Networkを用いた音響イベントのゼロショット学習2022

Author(s)

Organizer

Related Report

[Presentation] 器質性構音障害者向け音声認識モデルにおける発話辞書適応方式の比較検討2022

Author(s)

Organizer

Related Report

[Presentation] wav2vec 2.0 によるラベル無し音声を用いた脳性麻痺患者の音声認識2022

Author(s)

Organizer

Related Report

[Remarks] 研究者webページ

URL

Related Report

高島遼一神戸大学, 都市安全研究センター, 准教授 (50846102)