発話動作を起点とした音声生成による代用発声技術の実現
Project/Area Number |
21K11965
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Kyushu University |
Principal Investigator |
鏑木 時彦 九州大学, 芸術工学研究院, 教授 (30325568)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2022: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 音声合成 / 口唇動画 / 発声障害 / 機械学習 / 転移学習 / トランスフォーマー / 調音運動 / リアルタイムMRI / ニューラルネットワーク / 敵対的生成ネットワーク / 代用発声 / MRI / 系列変換モデル / 調音観測 |
Outline of Research at the Start |
本研究では、喉頭疾患による発声障害者が音声コミュニケーションを維持できるようにするために、発話時の口の動きだけから音声を合成し、意図の伝達を可能にする、代用発声技術を検討する。システムへ入力される発話動作から機械学習によって音声を生成するため、口唇動画とリアルタイムMRIを用いて、複数話者の調音・音声パラレルコーパス作成を行う。さらに、畳み込み層を基としてEnd-to-endで了解性の高い音声を生成する検討を行う。
|
Outline of Annual Research Achievements |
本研究は、ガンなどの喉頭疾患による発声障害者が音声コミュニケーションを維持するための代用発声技術の実現を目的とする。喉頭疾患では、口腔の調音器官は維持されるため、通常の発話時の口唇の動きから音声を合成することで、意図の伝達が可能になる。具体的には、口唇運動を撮影した動画をもとに、機械学習によってEnd-to-endで音声波形を生成することを目的とする。 最終年度は、口唇動画からの音声合成に関して、既存の合成モデルを高度化するための検討を行った。本合成法は機械学習に基づくため、口唇動画と音声のパラレルデータセットが大量に必要になる。現時点で得られているデータセットは本課題で収集したもので、約3900個の短文章からなり、日本語のデータセットとしては比較的大規模と言えるものの、英語音声で収集された海外のデータセットと比較するとまだ十分とは言えない。データセットの規模と品質は合成音の品質に直結するため、学習に利用可能なデータ量が少ない制約下での有効な学習法を確立することは重要である。 本研究の合成モデルは、自然言語処理などで用いられるトランスフォーマーを基としており、エンコーダーとデコーダーから構成される。テキストと音声からなるパラレルデータは既存の大規模なオープンリソースが利用できるため、これらのエンコーダー、デコーダーを別のタスク課題に対して学習し、転移学習によって口唇動画音声合成に適用する検討を行った。エンコーダーについてはテキスト音声合成、デコーダーについては音声スペクトルを自己復元するネットワークを学習し、口唇動画音声合成に転移学習した。さらに、エンコーダー出力の中間的な特徴量をベクトル量子化によって離散化、情報圧縮することを試みた。転移学習とベクトル量子化の効果を種々のデータ量に対して比較することで、それぞれの手法の有効性を客観評価指標によって示すことができた。
|
Report
(3 results)
Research Products
(18 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Book] 音響学講座 音声(上)2021
Author(s)
滝口哲也(編著)鏑木時彦他(著)
Total Pages
309
Publisher
コロナ社
ISBN
9784339013665
Related Report
-
-
-