Project/Area Number |
23K20733
|
Project/Area Number (Other) |
21H00906 (2021-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2021-2023) |
Section | 一般 |
Review Section |
Basic Section 09070:Educational technology-related
|
Research Institution | Kobe University |
Principal Investigator |
滝口 哲也 神戸大学, 都市安全研究センター, 教授 (40397815)
|
Co-Investigator(Kenkyū-buntansha) |
中井 靖 京都女子大学, 心理共生学部, 教授 (80462050)
HASCOET TRISTAN 神戸大学, 経営学研究科, 助教 (60848448)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥16,380,000 (Direct Cost: ¥12,600,000、Indirect Cost: ¥3,780,000)
Fiscal Year 2024: ¥3,900,000 (Direct Cost: ¥3,000,000、Indirect Cost: ¥900,000)
Fiscal Year 2023: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2022: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2021: ¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
|
Keywords | ヒューマン・インターフェース / 発話コミュニケーション支援技術 |
Outline of Research at the Start |
本研究では,発話が不明瞭であり自分の意思を声にして伝えることが困難な構音障がい者を対象に,発話認識・音声変換手法の研究を行う.構音障がい者への身体負担を考慮すると,事前に大量教師(発話テキスト)あり発話音声データを集めることは難しいため,発話テキスト情報を使わない自己教師あり学習を利用した音響モデル構築手法などを提案し,コミュニケーション支援技術の有効性を示す.
|
Outline of Annual Research Achievements |
昨年度の研究成果をもとに構音障がい者のカスタマイズドコミュニケーション基盤技術に資する手法の提案,および実証実験をさまざまな観点から行い,それらの有効性を確認した.主な内容は以下のとおりである. 器質性構音障がい者のテキストなし音声を用いた自己教師あり学習による音声認識について検討した.事前に大規模な健常者音声を用いて自己教師あり学習を行い,次にその学習済みモデルを初期値として,器質性構音障がい者のテキストなし音声を用いて自己教師あり学習フェーズにおけるfine-tuningを行った.器質性構音障がい者のテキストなし音声で自己教師あり学習を行った場合は,行わない場合と比べて音声認識率が改善されることが示された. また音声変換においては(主に以下の3つの課題について検討),実応用面でのリアルタイム処理を実現するため,End-to-End系列変換型声質変換への高速ニューラル波形生成モデルの導入を検討し,高品質な音質を維持したまま高速化が可能であることを確認した.また音声変換において入力話者と出力話者における音素継続長の違いや,同じ音が全く別の音のように発音されるといった問題が発生し,音声変換精度に影響を与えている.この問題の一つの対応策として柔軟なアライメントを生成可能な方法も検討し,声質変換において有効性を確認した.また言葉の繰り返しや発話が困難な場合がある吃音当事者のコミュニケーション支援として,吃音者本人の声質でかつ流暢な音声を合成可能な音声合成システムも検討した.吃音当事者の発話においては,難発に伴い(本来無いはずの)無音声区間が長く生じることがある.この難発の影響を軽減するために,健常者の音素継続長を用いて音声合成システムの学習をする方法を提案し,有効性を確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
交付申請書では,2つのサブテーマを設定していた. (1) 構音障がいとして器質性構音障がいに着目し,利用可能な学習用の発話データ数が少ないという問題に対し,器質性構音障がい者のテキストなし音声を用いて自己教師あり学習法を適用し,行わない場合と比べて音声認識率が改善されることを示すことができた.また昨年度に引き続き,構音障がい者の音声認識に追加して,マルチモーダルな感情発話認識/字幕生成,対話システムなどについても論文発表を行うことができた. (2) 音声変換においては,実用性に着目するため,高品質かつハイエンドなGPUを必要とせずCPUのみでもリアルタイム生成可能なニューラル音声波形生成モデルを構築し,その有効性を示すことができた.さらに,歌声音声変換や合成音声の品質に影響を与えるニューラルボコーダなどについても論文発表を行うことができた.ジャーナル1件,学会発表21件(うち査読あり国際会議予稿集2件)の発表を行い,本申請課題は,おおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
本年度の研究成果をもとに研究をさらに遂行していく.これまでの研究成果により音声合成の声質も改善されてきているので,音声合成を活用した音声認識のデータ拡張も再度検討していく.音声変換においては,引き続き入力音声(聞き取り困難な音声)と出力音声(聞き取り容易な音声)のミスマッチ課題について,新たなニューラルネットワーク構造を検討していく.また音声認識,音声変換・合成の研究において,引き続き構音障がい者の音声データ収録を行い,提案手法の有効性を示していく. - 研究代表者・研究分担者・協力者の間で,定期的に報告会を開催し,研究の進捗状況を協議する. - 地域障がい者NPO法人の方々とも定期的に話し合いを行い,研究の有効性に関する調査を継続する.
|