研究課題/領域番号 |
21H00906
|
配分区分 | 補助金 |
研究機関 | 神戸大学 |
研究代表者 |
滝口 哲也 神戸大学, 都市安全研究センター, 教授 (40397815)
|
研究分担者 |
HASCOET TRISTAN 神戸大学, 経営学研究科, 助教 (60848448)
中井 靖 京都女子大学, 発達教育学部, 准教授 (80462050)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | ヒューマン・インターフェース |
研究実績の概要 |
今年度は,構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案,および実証実験において有効性を確認した.概要は以下のとおりである. (1) ラベル無し発話データを用いた音響モデル学習法:本研究では,日常生活の場面等における自由発話音声を音声認識に活用することを検討する.自由発話音声の録音は,台本の読み上げによる収録と比較して構音障がい者にとって身体への負担が小さいため,比較的容易に多くのデータを収集できると考えられる.しかし,構音障がい者の発話スタイルは健常者とは異なり,人手により発話内容を認識し文字起こしを行うことは困難であるため,ラベルの無い音声データの活用方法が求められている.ラベルの無い音声データを音声認識に活用するアプローチとしては,音声認識によりラベル無し音声にラベルを付与する擬似ラベリング手法や,ラベル無し音声のみで学習できるタスクにより特徴表現学習を行い,その後ラベル付き音声でファインチューニングを行う手法などがある.本研究では,構音障がい者音声認識において擬似ラベリングと特徴表現学習を使用する場合の音声認識性能の比較を行い,さらに両方の手法を併用することで音声認識性能を向上させることを試みた. (2) 非パラレル学習による声質変換:構音障がい者の発話音声では,音素境界が曖昧となるため,声質変換モデル学習に必要となるパラレル音声学習データの作成が困難な場合がある.本研究では,パラレル音声学習データを必要としないDisentangled representationに基づく言語特徴,話者特徴による声質変換手法を提案し,構音障がい者の声質変換において有効性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
今年度の交付申請書では,2つのサブテーマを設定していた.(1) ラベル無し発話データを用いた音響モデル学習法として,擬似ラベリングと特徴表現学習のアプローチを用いて,音声認識性能の向上を試みた.また,当初の計画に追加して新たに対話システムの構築手法として,外部知識として知識グラフを用いた応答文生成モデルにおいて,検索してきた知識の利用を促す手法として,エンティティ名制約付きデコーディングを提案した.(2) 声質変換については,Disentangled representationに基づく非パラレル声質変換手法を提案し,構音障がい者の声質変換において有効性を確認した.さらに当初の計画に追加して,高速かつ高品質なニューラルボコーダとして提案されているHiFi-GANに対して励起信号を入力するネットワークを用いたPeriod-HiFi-GANを提案した.また,通常の話し言葉のみならず,歌声合成にも注目し,Period-Net,HiFi-GANなどのニューラルボコーダの歌声合成における性能評価も行った. 英文ジャーナル3件,査読あり国際会議予稿集3件,国内講演論文集9件の発表を行い,本申請課題は,おおむね順調に進展しているといえる.
|
今後の研究の推進方策 |
本年度の研究成果をもとに研究をさらに遂行していく. - 研究代表者・研究分担者・協力者の間で,定期的に報告会を開催し,研究の進捗状況を協議する. - 地域障がい者NPO法人の方々とも定期的に話し合いを行い,新たな研究の可能性についても調査研究を行う. - 本プロジェクトを通じて得られた研究成果を国内外の学会などで積極的に研究発表を行う.また個人ホームページなどを通じて研究成果を広く公開していき,さまざまな意見をいただける機会を設け,新たな研究の可能性について検討する.
|