研究課題/領域番号 |
21K11955
|
研究機関 | 東京大学 |
研究代表者 |
郡山 知樹 東京大学, 大学院情報理工学系研究科, 講師 (50749124)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 機械学習 / 深層学習 / 微分方程式 / Neural ODE / 音声合成 / ガウス過程 |
研究実績の概要 |
近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は,大量の音声データを用いて大量のパラメータを学習する手法である.しかし,音声は言語・方言や話者,話し方や周囲の環境など多様性が非常に高いため,あらゆる音声を収録することは非常に困難である.そのため,例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように,大量のパラメータを用いることに適さない音声情報処理が多く存在する.そこで本研究の目的は,少量のパラメータであっても複雑な関数を表現可能である,層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理,特に音声合成における有効性を調査することである. 今年度は,主にベースライン手法となる深層ガウス過程(deep Gaussian process, DGP)に基づくsequenec-to-sequence (seq2seq)音声合成の確立を行った.従来の層の微分方程式による連続表現を用いたDiffGPモデルに対する予備実験では,フィードフォワード型の単純な音声合成との比較であったため,現在の研究の最前線であるDNNに基づくseq2seq音声合成との比較を行う必要があった.結果として,DGPに基づく音声合成では,seq2seq構造の導入は可能であり,またDNNモデルで広く使用されるself-attentionをDGPに導入することで,seq2seq DNN音声合成より自然な音声を生成することに生成した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究の目標である層の微分方程式表現を用いたモデルの検討であるが,本年度の成果がベースラインの作成に留まったことから,進捗は遅れていると言える.一方でベースラインモデルにおいて,畳み込み層やリカレント層,self-attentionなどのDGPにおける有効性や,層の数による影響など包括的な調査を行ったため,次年度以降でこのような調査を行う必要がなくなった.
|
今後の研究の推進方策 |
DGP音声合成の課題の一つであり本研究課題において解決を目指していた,“パラメータ数の増加によって層の増加が必ずしも性能の向上にならない”問題が,今年度の成果であるseq2seq DGP音声合成によっても起こることを確認した.そのため,今後の研究は,まずseq2seq DGP音声合成に層の微分方程式表現を導入することである.その後,微分方程式表現のメリットである逆演算を用いて,話者やアクセントなど潜在的な表現を獲得する手法の開発を目指す.
|
次年度使用額が生じた理由 |
本年度の進捗がベースラインの作成に留まったことから,本格的な計算機実験を実施する次年度に使用額を回す必要が生じた.また,学会発表および論文発表が次年度となったため次年度使用額が発生した.
|