Speech Processing Based on Deep Gaussian Process With Stochastic Differential Equation Layers
Project/Area Number |
21K11955
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | CyberAgent, Inc. AI tech studio AI Lab (2022-2023) The University of Tokyo (2021) |
Principal Investigator |
郡山 知樹 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト (50749124)
|
Co-Investigator(Kenkyū-buntansha) |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 機械学習 / 深層学習 / ガウス過程 / アライメント / 長文音声合成 / 微分方程式 / Neural ODE / 音声合成 / 音声情報処理 |
Outline of Research at the Start |
深層学習は学習手法やハイパーパラメータの調整必要性から,異なるデータベースに対する再現性が低いなど,学習の難易度が高いという問題が存在する.本研究課題では,深層学習モデルにおいて,離散的な表現である素子・層を連続化し,少量のパラメータで複雑な関数を表現可能な深層ガウス過程モデルであるDiffGPモデルの実用可能性を,音声情報処理を通じて明らかにする.またDiffGPを深さ方向だけでなく,時間方向においても微分方程式による表現を用いることで,高性能な音声の時系列モデリング手法の開発を行う.
|
Outline of Annual Research Achievements |
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は、大量の音声データを用いて大量のパラメータを学習する手法である。しかし、音声は言語・方言や話者、話し方や周囲の環境など多様性が非常に高いため、あらゆる音声を収録することは非常に困難である。そのため、例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように、大量のパラメータを用いることに適さない音声情報処理が多く存在する。そこで本研究の目的は、少量のパラメータであっても複雑な関数を表現可能である、層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理、特に音声合成における有効性を調査することである。これまで、DNNと同様の機能を持つ層を、より性能の高いDGPでも実現できることを示し、さらに深い構造や時間的な構造を取り入れるため、層の微分方程式表現を導入することを目的としていた。 しかし、検討の結果、深層ガウス過程の計算量の問題から、当初の方向性で研究を実施することは困難であることがわかった。そこで、今年度は、研究の目的に掲げていた、音声の時間方向のモデル化の自由度を高める方法として、音声と言語情報の伸縮や一致を表すアライメントに研究の主眼を置いた。アライメントは音声のどの時間に音素や文字と言った言語情報が発せられていたかを同定するタスクであり、アライメントの高精度可により、音声の分析や音声合成の品質向上に繋がるだけでなく、長さの異なる音声情報と言語情報のモデル化の自由度を向上させる。今年度の成果では、従来手法より高精度なアライメントが実現できることが示された。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の目標である層の微分方程式表現を用いたモデルの検討であるが、当初の見通しには問題があったため、方向転換を行った。そのため、進捗は遅れていると言える。
|
Strategy for Future Research Activity |
今後の研究は、今年度得られた成果である高精度なアライメントを用いて、音声の時間的構造を表現可能な音声情報処理を提案する。具体的には、音声合成モデルにおけるアライメントを拡張し学習の高速化を行うことで、音声合成モデルの検討サイクルを向上させる。また、現在のアライメントモデルは時間方向に離散情報を用いているが、実際の音声は連続的に変化しているという矛盾点が存在する。そこで微分方程式表現の導入によって、より高精度なアライメントの実現を目指す。
|
Report
(3 results)
Research Products
(6 results)