研究課題/領域番号 |
21H00906
|
配分区分 | 補助金 |
研究機関 | 神戸大学 |
研究代表者 |
滝口 哲也 神戸大学, 都市安全研究センター, 教授 (40397815)
|
研究分担者 |
HASCOET TRISTAN 神戸大学, 経営学研究科, 助教 (60848448)
中井 靖 京都女子大学, 発達教育学部, 教授 (80462050)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
キーワード | ヒューマン・インターフェース |
研究実績の概要 |
昨年度の研究成果をもとに構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案,および実証実験をさまざまな観点から行い,それらの有効性を確認した.主な内容は以下のとおりである. 器質性構音障がい者のテキストなし音声を用いた自己教師あり学習による音声認識について検討した.事前に大規模な健常者音声を用いて自己教師あり学習を行い,次にその学習済みモデルを初期値として,器質性構音障がい者のテキストなし音声を用いて自己教師あり学習フェーズにおけるfine-tuningを行った.器質性構音障がい者のテキストなし音声で自己教師あり学習を行った場合は,行わない場合と比べて音声認識率が改善されることが示された. また音声変換においては(主に以下の3つの課題について検討),実応用面でのリアルタイム処理を実現するため,End-to-End系列変換型声質変換への高速ニューラル波形生成モデルの導入を検討し,高品質な音質を維持したまま高速化が可能であることを確認した.また音声変換において入力話者と出力話者における音素継続長の違いや,同じ音が全く別の音のように発音されるといった問題が発生し,音声変換精度に影響を与えている.この問題の一つの対応策として柔軟なアライメントを生成可能な方法も検討し,声質変換において有効性を確認した.また言葉の繰り返しや発話が困難な場合がある吃音当事者のコミュニケーション支援として,吃音者本人の声質でかつ流暢な音声を合成可能な音声合成システムも検討した.吃音当事者の発話においては,難発に伴い(本来無いはずの)無音声区間が長く生じることがある.この難発の影響を軽減するために,健常者の音素継続長を用いて音声合成システムの学習をする方法を提案し,有効性を確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
交付申請書では,2つのサブテーマを設定していた. (1) 構音障がいとして器質性構音障がいに着目し,利用可能な学習用の発話データ数が少ないという問題に対し,器質性構音障がい者のテキストなし音声を用いて自己教師あり学習法を適用し,行わない場合と比べて音声認識率が改善されることを示すことができた.また昨年度に引き続き,構音障がい者の音声認識に追加して,マルチモーダルな感情発話認識/字幕生成,対話システムなどについても論文発表を行うことができた. (2) 音声変換においては,実用性に着目するため,高品質かつハイエンドなGPUを必要とせずCPUのみでもリアルタイム生成可能なニューラル音声波形生成モデルを構築し,その有効性を示すことができた.さらに,歌声音声変換や合成音声の品質に影響を与えるニューラルボコーダなどについても論文発表を行うことができた.ジャーナル1件,学会発表21件(うち査読あり国際会議予稿集2件)の発表を行い,本申請課題は,おおむね順調に進展しているといえる.
|
今後の研究の推進方策 |
本年度の研究成果をもとに研究をさらに遂行していく.これまでの研究成果により音声合成の声質も改善されてきているので,音声合成を活用した音声認識のデータ拡張も再度検討していく.音声変換においては,引き続き入力音声(聞き取り困難な音声)と出力音声(聞き取り容易な音声)のミスマッチ課題について,新たなニューラルネットワーク構造を検討していく.また音声認識,音声変換・合成の研究において,引き続き構音障がい者の音声データ収録を行い,提案手法の有効性を示していく. - 研究代表者・研究分担者・協力者の間で,定期的に報告会を開催し,研究の進捗状況を協議する. - 地域障がい者NPO法人の方々とも定期的に話し合いを行い,研究の有効性に関する調査を継続する.
|