Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers
Project/Area Number |
21K11955
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | CyberAgent, Inc. AI tech studio AI Lab (2022) The University of Tokyo (2021) |
Principal Investigator |
郡山 知樹 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, - (50749124)
|
Co-Investigator(Kenkyū-buntansha) |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 機械学習 / 深層学習 / 長文音声合成 / ガウス過程 / 微分方程式 / Neural ODE / 音声合成 / 音声情報処理 |
Outline of Research at the Start |
深層学習は学習手法やハイパーパラメータの調整必要性から,異なるデータベースに対する再現性が低いなど,学習の難易度が高いという問題が存在する.本研究課題では,深層学習モデルにおいて,離散的な表現である素子・層を連続化し,少量のパラメータで複雑な関数を表現可能な深層ガウス過程モデルであるDiffGPモデルの実用可能性を,音声情報処理を通じて明らかにする.またDiffGPを深さ方向だけでなく,時間方向においても微分方程式による表現を用いることで,高性能な音声の時系列モデリング手法の開発を行う.
|
Outline of Annual Research Achievements |
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである. 今年度は,深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した.これによって,DNNと同様の機能を持つ層を,より性能の高いDGPでも実現できることを示した.また,時間的な連続性を表現するための前段階として,長文音声合成の基盤作成を行った.具体的には,長文の中で知覚的な影響の大きいポーズを,事前学習済み言語モデルを用いて予測する手法を提案し,より自然な長文音声合成を実現することに成功した.この成果により,テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり,層の深層方向および時間軸方向のモデル化への指針が示された.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
本研究の目標である層の微分方程式表現を用いたモデルの検討であるが, 本年度の成果は部分的な機能の評価や,長文音声合成の基盤作成に留まったことから,進捗は遅れていると言える.
|
Strategy for Future Research Activity |
今後の研究は,まずseq2seq DGP音声合成に層の微分方程式表現を導入することである. その後,微分方程式表現のメリットである逆演算を用いて,話者やアクセントなど潜在的な表現を獲得する手法の開発を目指す.また,長文音声合成の成果を活かし,時間軸方向の連続性にも微分方程式表現が有効であることを示す.
|
Report
(2 results)
Research Products
(5 results)