研究課題/領域番号 |
21H00906
|
配分区分 | 補助金 |
研究機関 | 神戸大学 |
研究代表者 |
滝口 哲也 神戸大学, 都市安全研究センター, 教授 (40397815)
|
研究分担者 |
HASCOET TRISTAN 神戸大学, 経営学研究科, 助教 (60848448)
中井 靖 京都女子大学, 発達教育学部, 准教授 (80462050)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | ヒューマン・インターフェース |
研究実績の概要 |
昨年度の研究成果をもとに構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案,および実証実験をさまざまな観点から行い,それらの有効性を確認した.主な内容は以下のとおりである. (1) 器質性構音障がい者においては,発話器官の異常があるために,話者ごとに大きく異なる固有の発話スタイルを獲得していると考えられる.その結果,発音困難な音声と比較的容易な音声の間で,誤認識の頻度も大きく異なると考えられる.本年度では,その話者ごとの誤認識の傾向を考慮した発話辞書適応,および中間層損失関数を導入した音声認識システムを検討した.この音声認識システムでは話者ごとの誤り傾向を学びながらも,本来想定されている健常者と同じような認識結果を出力することが期待される.音声認識実験により認識精度が改善されることが示された. (2) 脊髄性筋萎縮症者の話者性を維持しつつ聞き取りやすい音声を合成するシステムの改良を行った.具体的には話者認識モデルから得られる話者埋め込みを利用して,新たな損失関数を深層学習に加える方法を提案した.その結果,提案法は収録音声と比較して明瞭で,従来法より話者性に優れた音声を生成することができた.また実環境下では人工呼吸器のような音を発する医療器具を装着された状態での収録が必要となることが多く,結果として機器雑音が混入した音声が収録されることとなる.それらの外部雑音を含む収録音声をそのまま学習に用いると,合成音声が雑音を多く含んだものになる可能性がある.そのため,本年度では,深層学習に基づく音声強調処理も音声合成システムの事前処理に組み込み,有効性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
今年度の交付申請書では,2つのサブテーマを設定していた.(1)構音障がい者の音声認識の学習データ拡張として合成音の利用も検討したが,認識精度の改善には発話スタイルの適応がより重要となり,話者ごとの誤認識の傾向(発話スタイルの影響)を考慮した音声認識アルゴリズムを検討し,その有効性を示すことができた.また当初の計画に追加して,マルチモーダルな感情発話認識/字幕生成,雑談対話システムなどについても論文発表を行うことができた. (2)発話困難者として脊髄性筋萎縮症者の音声に注目して,話者性を維持しながら明瞭性を改善する方法を検討した.具体的には明瞭性のある健常者の音声合成モデルを用いて,少量の発話困難者音声でモデル適応する際に,話者識別モデルを導入した新たな方法を提案し,その有効性を示すことができた.また当初の計画に追加して,感情音声変換,合成音声の品質に影響を与えるニューラルボコーダなどについても論文発表を行うことができた. ジャーナル4件,学会発表25件(うち査読あり国際会議予稿集4件)の発表を行い,本申請課題は,当初の計画以上に進展しているといえる.
|
今後の研究の推進方策 |
本年度の研究成果をもとに研究をさらに遂行していく. - 研究代表者・研究分担者・協力者の間で,定期的に報告会を開催し,研究の進捗状況を協議する. - 地域障がい者NPO法人の方々とも定期的に話し合いを行い,新たな研究の可能性についても調査研究を行う. - 本プロジェクトを通じて得られた研究成果を国内外の学会などで積極的に研究発表を行う.また個人ホームページなどを通じて研究成果を広く公開していき,さまざまな意見をいただける機会を設け,新たな研究の可能性について検討する.
|