Project/Area Number |
22K12168
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kobe University |
Principal Investigator |
高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 音声認識 / 音響イベント分類 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク / 音響監視 |
Outline of Research at the Start |
本研究では、構音障害者のコミュニケーション支援のための障害者音声認識技術、および安全監視のための音響イベント検出技術の開発を目的とする。この目的において、音声認識および異常イベントの学習データの収集が困難であることが課題である。そこで本研究では「自己教師有り学習と日常会話収録音声を用いた障害者音声認識モデル学習」と「学習データに存在しない音響イベントを検出するゼロショット学習」をコア技術とし、常時収録による障害者の安全監視・音声認識・学習データ自動収集を同時に行うシステムを検討する。実用レベルの構音障害者音声認識の実現、および未知の異常データを検知する実現可能性検証を目標とする。
|
Outline of Annual Research Achievements |
構音障害者音声認識においては、昨年度に検討した自己教師あり学習による日常会話音声の音声認識モデル学習への活用手法について、さらなる改良を検討した。昨年度に検討したwav2vec2.0による自己教師あり学習法は、教師ラベル(発話内容ラベル)が存在しない日常会話音を学習データとして利用可能にした。しかしこの手法は教師ラベルを使用しないため、音声認識モデルの学習において間接的にしか日常会話音を利用できていなかった。今年度は、自己教師あり学習に加え、音声認識によって得られた認識結果を擬似的な教師ラベルとして用いる手法を検討した。その結果、脳性麻痺者音声認識の実験において昨年度よりも高い音声認識性能を得られた。 音声認識に関しては今年度の新たな試みとして、吃音者音声認識の検討を開始した。吃音は構音障害ではないが、発話時に連発や難発といった症状が出るため、健常者と比べて音声認識率が低下する課題がある。本研究では、吃音者音声の学習データ中に連発が発生した箇所に連発ラベルを付与し、その学習データを用いることで、連発検出と音声認識を同時に行うモデルを開発した。音声認識実験を行い、検出した連発箇所を音声認識させないようにすることで、音声認識率を向上させることが示された。 音響イベント分類においては、昨年度に検討したゼロショット音響イベント分類手法について、さらなる改良を検討した。昨年度に検討した音の属性情報に基づくゼロショット学習手法は、定義した属性(例えば「打撃音」や「金属音」)の種類不足により、原理的に分類が不可能なイベントクラスが多数存在していた。今年度は、打撃音に対する「コン」や「トン」といった音の言語表現であるオノマトペを属性情報に加えることで、より詳細な分類を行う手法を検討した。実験の結果、昨年度の手法に加えてさらに高い性能でゼロショット分類が可能であることが示された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音声認識の研究においては、昨年度に検討した日常会話音声の音声認識モデルへの活用方法を改良し、さらに性能改善することができた。またこの研究と並行して、新たに吃音者音声認識の検討を開始し、従来の音声認識手法と比べて高い性能の認識モデルを構築することができた。音響イベント分類の研究においても、昨年度に検討した属性情報に基づくゼロショット学習手法に対して、当初の予定通り属性情報の拡張によって性能改善をすることができた。これらの成果はジャーナル論文であるIEEE Access、国際会議であるICASSP2023、国内会議である日本音響学会2023年研究発表会などで発表した。
|
Strategy for Future Research Activity |
構音障害者音声認識においては、引き続きwav2vec2.0ベースの自己教師あり学習手法をさらに改良することで性能改善を検討する。また吃音者音声認識についても今年度は検討に含めなかった難発や伸発の問題についても検討していく。音響イベント分類においては、生成ベースのゼロショット学習手法などを用いることで、性能改善を検討する。また、これまで開発した認識システムを用いて、構音障害者を対象とした実証実験も行っていく。
|