研究課題/領域番号 |
17H01995
|
研究機関 | 神戸大学 |
研究代表者 |
滝口 哲也 神戸大学, 都市安全研究センター, 教授 (40397815)
|
研究分担者 |
高田 哲 神戸大学, 保健学研究科, 名誉教授 (10216658)
陳 金輝 県立広島大学, 地域創生学部, 准教授 (50777810)
中井 靖 宮崎大学, 教育学部, 教授 (80462050)
|
研究期間 (年度) |
2017-04-01 – 2021-03-31
|
キーワード | ヒューマン・インターフェース |
研究実績の概要 |
今年度は昨年度までの成果をもとに,障がい者コミュニケーション支援システムに資する手法の提案,及び実証実験において性能のさらなる改善を確認した.概要は以下のとおりである. (1)モデル適応による音声認識:構音障がい者の発話データを十分に収録することは困難であるため,少量の発話データから音響モデルを学習しなければならないという問題がある.少量データから音響モデルを学習する際のアプローチとして,既存の学習済みモデルに対して目的ドメインの少量データを用いてFine tuningをする,モデル適応手法が考えられる.今年度は,健常者の不特定話者音響モデルから構音障がい者の特定話者音響モデルに音響モデル適応を行うことで,障がい者音声認識性能が向上することを示した. (2) 音声合成:今年度は本人の話者性を保ちながら明瞭性の高い音声を合成可能な音声合成システムの構築を目的とし,Transformer型音響モデルによる健常者音声合成と,健常者から構音障がい者への声質変換による音声生成を合わせた音声合成手法を提案し,有効性を示した. (3) Lip readingによる発話認識:従来のマルチモーダル音声認識において,音響特徴量を用いて画像特徴量にAttentionをかけるCross-modal attention機構により音声と画像の特徴量を統合する手法が提案されている.この従来手法では,雑音の大きい音声では重みの推定が困難な場合があるため,今年度ではある時刻の音声に関係する画像フレームは,全体の一部であるという考えに基づいて,重みの計算を一部の画像フレームに限定するローカルアテンションを提案した.提案手法によりAttention重み計算を行うフレームを限定することで,雑音環境下において適切な重みの推定が可能であることが示された.
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|