研究課題/領域番号 |
22K12168
|
研究機関 | 神戸大学 |
研究代表者 |
高島 遼一 神戸大学, 都市安全研究センター, 准教授 (50846102)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 音声認識 / 音響イベント分類 / 構音障害 / 障害者支援技術 / 機械学習 / ニューラルネットワーク |
研究実績の概要 |
本研究では、構音障害者のコミュニケーション支援のための障害者音声認識技術、および安全監視のための音響イベント検出技術の開発を目的とし、障害者の学習音声データおよび検出すべき異常イベントの学習データの収集が困難であるという課題を解決するコア技術として「自己教師有り学習と日常会話収録音声を用いた障害者音声認識モデル学習」と「学習データに存在しない音響イベントを検出するゼロショット学習」を開発している。 障害者音声認識モデルの学習においては、収録が比較的容易だが教師ラベルの付与が困難な日常会話収録音を自己教師あり学習の一つであるwav2vec2.0の枠組みを用いて音声認識モデルの学習に活用する手法を検討した。wav2vec2.0は健常者音声認識の分野では高い認識性能を示す技術であるが、データ量の少ない構音障害者音声認識においてはまだ十分に検証がされていなかった。本研究では、660時間という比較的大規模の日本語健常者音声を用いてwav2vec2.0を初期学習し、さらに複数の構音障害者音声を用いて追加学習することで、wav2vec2.0による音声認識性能を向上できることを明らかとした。 音響イベント検出においては、音声を入力してイベント名を出力するという従来の教師あり学習に対して、本研究ではイベント名の代わりにそのイベントを説明する属性(例えば「ドアをノックする音」というイベントの属性は「木の音」、「打撃音」、「同じ音が繰り返される」)を出力するように学習することで、未知のイベントを認識可能とする「属性情報に基づく音のゼロショット学習技術」を新たに開発した。さらに画像分野で提案されたAttribute prototype networkを用いることで、前述のゼロショット学習の性能を向上させることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
構音障害者音声認識の研究においては、当初の予定通りにwav2vec2.0の障害者日常会話音声に適用を実施し、その有効性を検証することができた。音響イベント分類の研究においては、今年度は主に実験環境とベースライン技術の構築を予定していたが、これに加えてAttribute prototype networkによる性能改善まで行えた。これらの成果は国際会議であるGCCE2022で発表済みであり、ICASSP2023でも発表予定である。また全国大会である日本音響学会2022年研究発表会などでも発表済みである。
|
今後の研究の推進方策 |
構音障害者音声認識においては、HuBERTなど、wav2vec2.0以外の自己教師あり学習手法の比較検証を行うとともに、それらの性能改善をするための手法を検討する。また構音障害者音声の収録も継続していく。音響イベント分類においては、より多様な音響イベントを分類可能にするための属性情報の拡張や、定義した属性情報を高精度に推定するためのニューラルネットモデルの改善を行う。また、転倒などの異常イベント検出といった、より現実に近い設定での検証も行っていく。
|