研究課題/領域番号 |
21K11955
|
研究機関 | 株式会社サイバーエージェント(AI事業本部 AI Lab) |
研究代表者 |
郡山 知樹 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, - (50749124)
|
研究分担者 |
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 機械学習 / 深層学習 / 長文音声合成 / ガウス過程 |
研究実績の概要 |
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである. 今年度は,深層ガウス過程に基づく音声合成における畳み込み層の有効性を示した.これによって,DNNと同様の機能を持つ層を,より性能の高いDGPでも実現できることを示した.また,時間的な連続性を表現するための前段階として,長文音声合成の基盤作成を行った.具体的には,長文の中で知覚的な影響の大きいポーズを,事前学習済み言語モデルを用いて予測する手法を提案し,より自然な長文音声合成を実現することに成功した.この成果により,テキストと音声の時間軸方向の伸縮を適切に行うことの重要性が明らかになり,層の深層方向および時間軸方向のモデル化への指針が示された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究の目標である層の微分方程式表現を用いたモデルの検討であるが, 本年度の成果は部分的な機能の評価や,長文音声合成の基盤作成に留まったことから,進捗は遅れていると言える.
|
今後の研究の推進方策 |
今後の研究は,まずseq2seq DGP音声合成に層の微分方程式表現を導入することである. その後,微分方程式表現のメリットである逆演算を用いて,話者やアクセントなど潜在的な表現を獲得する手法の開発を目指す.また,長文音声合成の成果を活かし,時間軸方向の連続性にも微分方程式表現が有効であることを示す.
|