層の微分方程式表現を用いた深層ガウス過程に基づく音声情報処理

研究課題

研究課題/領域番号	21K11955
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61010:知覚情報処理関連
研究機関	株式会社サイバーエージェント(AI事業本部 AI Lab) (2022-2023) 東京大学 (2021)
研究代表者	郡山知樹株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト (50749124)
研究分担者	猿渡洋東京大学, 大学院情報理工学系研究科, 教授 (30324974)
研究期間 (年度)	2021-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2022年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円) 2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワード	機械学習 / 深層学習 / ガウス過程 / アライメント / 長文音声合成 / 微分方程式 / Neural ODE / 音声合成 / 音声情報処理
研究開始時の研究の概要	深層学習は学習手法やハイパーパラメータの調整必要性から，異なるデータベースに対する再現性が低いなど，学習の難易度が高いという問題が存在する．本研究課題では，深層学習モデルにおいて，離散的な表現である素子・層を連続化し，少量のパラメータで複雑な関数を表現可能な深層ガウス過程モデルであるDiffGPモデルの実用可能性を，音声情報処理を通じて明らかにする．またDiffGPを深さ方向だけでなく，時間方向においても微分方程式による表現を用いることで，高性能な音声の時系列モデリング手法の開発を行う．
研究実績の概要	近年主流となっている深層ニューラルネットワーク(Deep neural network, DNN)に基づく音声情報処理は、大量の音声データを用いて大量のパラメータを学習する手法である。しかし、音声は言語・方言や話者、話し方や周囲の環境など多様性が非常に高いため、あらゆる音声を収録することは非常に困難である。そのため、例えば収録音声を十分に用意できない話者の音声を生成するone-shot音声合成のように、大量のパラメータを用いることに適さない音声情報処理が多く存在する。そこで本研究の目的は、少量のパラメータであっても複雑な関数を表現可能である、層の微分方程式表現を用いたいわゆる無限層の深層学習に基づく音声情報処理、特に音声合成における有効性を調査することである。これまで、DNNと同様の機能を持つ層を、より性能の高いDGPでも実現できることを示し、さらに深い構造や時間的な構造を取り入れるため、層の微分方程式表現を導入することを目的としていた。しかし、検討の結果、深層ガウス過程の計算量の問題から、当初の方向性で研究を実施することは困難であることがわかった。そこで、今年度は、研究の目的に掲げていた、音声の時間方向のモデル化の自由度を高める方法として、音声と言語情報の伸縮や一致を表すアライメントに研究の主眼を置いた。アライメントは音声のどの時間に音素や文字と言った言語情報が発せられていたかを同定するタスクであり、アライメントの高精度可により、音声の分析や音声合成の品質向上に繋がるだけでなく、長さの異なる音声情報と言語情報のモデル化の自由度を向上させる。今年度の成果では、従来手法より高精度なアライメントが実現できることが示された。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由本研究の目標である層の微分方程式表現を用いたモデルの検討であるが、当初の見通しには問題があったため、方向転換を行った。そのため、進捗は遅れていると言える。
今後の研究の推進方策	今後の研究は、今年度得られた成果である高精度なアライメントを用いて、音声の時間的構造を表現可能な音声情報処理を提案する。具体的には、音声合成モデルにおけるアライメントを拡張し学習の高速化を行うことで、音声合成モデルの検討サイクルを向上させる。また、現在のアライメントモデルは時間方向に離散情報を用いているが、実際の音声は連続的に変化しているという矛盾点が存在する。そこで微分方程式表現の導入によって、より高精度なアライメントの実現を目指す。

報告書

(3件)

研究成果
(6件)

すべて 2024 2023 2022 2021

すべて学会発表 (6件) (うち国際学会 2件)

[学会発表] ニューラルネットに基づく音素アライメントのためのモデル構造・学習法および特徴量の比較評価2024
- 著者名/発表者名
  郡山知樹
- 学会等名
  日本音響学会春季研究発表会
- 関連する報告書
  2023 実施状況報告書
[学会発表] DURATION-AWARE PAUSE INSERTION USING PRE-TRAINED LANGUAGE MODEL FOR MULTI-SPEAKER TEXT-TO-SPEECH2023
- 著者名/発表者名
  Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, Hiroshi Saruwatari
- 学会等名
  ICASSP 2023
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] More differentiated pause insertion for phoneme-based multi-speaker TTS models2023
- 著者名/発表者名
  楊棟，郡山知樹，齋藤佑樹，佐伯高明，辛徳泰、猿渡洋
- 学会等名
  日本音響学会2023年春季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] 深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価2022
- 著者名/発表者名
  中村泰貴，郡山知樹，猿渡洋
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis2022
- 著者名/発表者名
  楊棟，郡山知樹，猿渡洋
- 学会等名
  日本音響学会2022年秋季研究発表会
- 関連する報告書
  2022 実施状況報告書
[学会発表] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021
- 著者名/発表者名
  Taiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari
- 学会等名
  Interspeech 2021
- 関連する報告書
  2021 実施状況報告書
- 国際学会

層の微分方程式表現を用いた深層ガウス過程に基づく音声情報処理

研究代表者

郡山 知樹 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト (50749124)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] ニューラルネットに基づく音素アライメントのためのモデル構造・学習法および特徴量の比較評価2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] DURATION-AWARE PAUSE INSERTION USING PRE-TRAINED LANGUAGE MODEL FOR MULTI-SPEAKER TEXT-TO-SPEECH2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] More differentiated pause insertion for phoneme-based multi-speaker TTS models2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer2021

著者名/発表者名

学会等名

関連する報告書

郡山知樹株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト (50749124)