発話動作を起点とした音声生成による代用発声技術の実現
Project/Area Number |
21K11965
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyushu University |
Principal Investigator |
鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 調音運動 / 口唇動画 / リアルタイムMRI / 音声合成 / ニューラルネットワーク / 敵対的生成ネットワーク / 代用発声 / MRI / 機械学習 / 系列変換モデル / 調音観測 |
Outline of Research at the Start |
本研究では、喉頭疾患による発声障害者が音声コミュニケーションを維持できるようにするために、発話時の口の動きだけから音声を合成し、意図の伝達を可能にする、代用発声技術を検討する。システムへ入力される発話動作から機械学習によって音声を生成するため、口唇動画とリアルタイムMRIを用いて、複数話者の調音・音声パラレルコーパス作成を行う。さらに、畳み込み層を基としてEnd-to-endで了解性の高い音声を生成する検討を行う。
|
Outline of Annual Research Achievements |
情報技術による音声コミュニケーションの拡張のため、その基盤となる調音・音声データベースの拡充と、口唇動画からの音声合成システムの高度化に関する研究をおこなった。 調音・音声データベースに関しては、発話時の声道全体の運動を観測し得るリアルタイムMRI(磁気共鳴画像)により、成人女性1名について音素バランス文(ATR503文)の観測実験を実施した。同観測手法により、これまで成人2名のデータ収集を完了しており、今回の測定実験によって当初目標とした3名分のデータ収集が完了する。従って、研究の進捗は当初の予定通りに進んでいる。リアルタイムMRIと同時に音声データの収録を行なっており、今後は撮像時のMRIノイズを除去する音声強調を施して、データセットとして完備する。 口唇動画からの音声合成については、これまで収集してきた音声コーパスやベースとなる再帰型のディープニューラルネットワークを使用するとともに、このネットワークモデルの性能向上を目指してGAN(敵対的生成ネットワーク)の適用を検討し、日本音響学会において研究発表をおこなった。同時に、従来から用いてきた再帰的ネットワーク構造と非再帰的構造の比較をおこない、それらの特徴や性能を明らかにした。これらの研究結果は、日本音響学会九州支部の発表会において公表した。 本研究の成果は、口唇動画という最小限の調音情報からでも、了解可能な音声を合成できることを示している。特に、調音情報にはピッチや有声・無声のような音源に関連した情報が含まれていないことから、口唇の動きに関する時系列データを手がかりとして、アクセントやイントネーションまでを再現できることは注目に値すると言える。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
情報技術による音声コミュニケーションの拡張を実現するための、調音・音声データベースの構築に関しては、今年度のリアルタイムMRIを用いた観測実験を通して、当初目標とした3名分のデータ収集を完了することができた。これまでのコロナ禍の影響を考えると、人を対象とした観測実験は実施の困難さが想定されたが、観測実験を実施したATR Promotions社脳活動イメージングセンタの協力により、ほぼ問題なくデータ収集を遂行することができた。今年度はさらに、プロのナレーターを用いた音声と口唇動画の収録実験をおこなった。これは、同一の話者に対してすでに収録済みのデータセットを、さらに拡張するためのものである。 口唇動画からの音声合成については、この科研費研究課題を開始した当初、すでにベースラインとなるシステムを構築しており、その性能をいかに向上させられるかを検討課題としている。今年度は、その目標のため、ネットワークの学習にGAN(敵対的生成ネットワーク)の適用を検討した。その結果、客観的な評価指標では改善が明らかではなかったが、合成音の主観的な聴取印象は改善されており、今後さらに検討を重ねる必要がある。同時に、ベースラインシステムで採用していた音声スペクトルの再帰的な推論構造と非再帰的な構造についても比較し、ネットワークの学習法までを含めて特徴を明らかにした。 以上より、研究の進展はおおむね順調と判断される。
|
Strategy for Future Research Activity |
リアルタイムMRIを用いた調音・音声データベースに関しては、今後は撮像時のMRIノイズを除去する音声強調を施して、データセットとして完備する必要がある。音声強調の方法についても予備的な検討を重ねてきているが、スペクトル減算のような信号処理的な方法よりも、U-NETのような畳み込み型のネットワーク構造を有する機械学習による強調法が有力と考えている。 口唇動画からの音声合成の課題は、合成音の了解度や自然性を向上させるとともに、複数話者への拡張をはかることである。了解度および自然性の向上については、引き続き敵対的生成ネットワークなどを用いた検討をおこない、客観的、主観的評価指標により有効性を明らかにしていく予定である。一方、合成システムが機械学習によって実現されることから、複数話者へ拡張するには、ネットワーク学習に必要となる各話者のデータサイズにも留意しながら、さらに話者の特徴を表す補助特徴量をいかにネットワークに反映させるかが問題となる。話者特徴量についても、簡易なone hot表現からベクトル表現まで幅があり、最適な表現法も含めて検討を進める予定にしている。
|
Report
(2 results)
Research Products
(11 results)
-
-
-
-
-
-
-
-
-
[Book] 音響学講座 音声(上)2021
Author(s)
滝口哲也(編著)鏑木時彦他(著)
Total Pages
309
Publisher
コロナ社
ISBN
9784339013665
Related Report
-
-