研究課題/領域番号 |
18J22090
|
研究機関 | 東京大学 |
研究代表者 |
齋藤 佑樹 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
キーワード | 音声合成 / 声質変換 / 深層学習 |
研究実績の概要 |
コンピュータを用いて音声を人工的に生成する音声合成技術は、音声コミュニケーション支援のために広く研究されている。本研究課題では、人間の音声知覚を統計的にモデル化し、多様な音声を自在に生成・制御可能な音声合成技術の実現を目的とする。具体的には、所望の合成音声を生成するために、音声合成に対する補助的な入力(例えば、音声の話者を表す特徴量)を利用者が探索的に与える必要があったという従来技術の問題点を解決する。このような技術は、音声バーチャルリアリティによる身体的制約を超えた自己表現の拡張や、実際に利用される環境に適応可能な音声合成技術の実現に応用できると考える。
今年度は特に、①変換元・変換先話者の多様性を考慮した声質変換技術のための統計モデリング法と②利用者の主観的印象を考慮した音声合成技術のための話者ベクトル空間構築法の2つに取り組んだ。①では、深層学習に基づく音声認識・話者認証モデルを統合した声質変換技術を提案し、従来法と比較して変換音声の品質が有意に改善し、かつ、学習データに含まれない未知話者の音声も変換可能な技術を実現した。②では、クラウドソーシングによる大規模主観スコアリングを実施し、多数の評価者の主観的話者間類似度に基づく話者ベクトル空間を構築するためのアルゴリズムを提案し、従来手法と比較して、提案手法は主観的話者間類似度と強い相関を持つ話者ベクトルを学習可能であることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究課題遂行1年目にして、近年盛んに研究されている深層学習に基づく統計的声質変換において、従来手法よりも高品質な変換音声を生成でき、かつ学習に用いられなかった話者対も変換可能となる画期的な手法を提案している。この成果は、音声・音響信号処理分野のトップカンファレンスであるIEEE ICASSP 2018に採録されており、さらに公益財団法人NEC C&C財団の平成30年度 前期国際会議論文発表者助成対象論文の中から選ばれた3件に授与されるC&C若手優秀論文賞と、電子情報通信学会の平成29年度音声研究会 研究奨励賞を受賞していることから、その学術的な重要性が非常に高く評価されていることがわかる。同研究成果は、音声信号処理分野の有力な論文誌であるSpeech Communicationに投稿している。また、従来の統計的声質変換・音声合成技術においてこれまでに着手されていなかった「聞き手の印象を考慮した統計的モデリング」のためのアルゴリズムも提案し、従来手法と比較して聞き手の印象と強い相関を持つ特徴量が得られることを実験的に示した。この成果は、3年に1度開催され、音声合成分野の著名な研究者が集う国際会議Speech Synthesis Workshop 2019に投稿予定である。以上より、研究課題遂行1年目にして、期待以上の研究の進展があったと考える。
|
今後の研究の推進方策 |
次年度は、今年度で取り組んだ内容を統合し、声質変換における提案手法の有効性を検証する。さらに、利用者からのフィードバックに基づき最適な話者ベクトルを予測するアルゴリズムも提案する。
|