2012 Fiscal Year Annual Research Report
テンソル解析を基盤とする高精度な話者性制御に基づく声質変換の研究
Project/Area Number |
23800015
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)
|
Project Period (FY) |
2011-08-24 – 2013-03-31
|
Keywords | 音声工学 / 音声合成 / 声質変換 |
Research Abstract |
本研究課題では、音声情報処理の福祉応用・エンターテインメント応用の基盤技術となる高精度かつ柔軟な話者性制御機能を有する声質変換手法を構築することを目的とし、その技術確立に取り組んだ。声質変換は話者変換とも呼ばれ、入力音声の言語内容を保持しつつ、 話者性などの非言語情報を所望のものに変換する技術である。 本研究では、人間の音声に内包される、言語内容を表す言語的情報、話者性等の非言語的情報、および発話様態を表すようなパラ言語的情報といった多様な情報に対して、テンソル情報解析を基盤とする適切な分解・再構成の枠組みの確立を目指した。 本年度における研究課題の遂行では、まず前年度において確立した、テンソル解析に基づく事前パラレルデータを利用した話者空間の構築プロセスにおいて、音声認識および音声合成でこれまで成果のあった話者正規化学習という手法を組み合わせる事でより高精度なモデルを構築することを目指した。テンソル解析を用いた話者空間構築は、多様な情報を適切にモデル化した分解を実現するが、事前学習の初期に構築されるモデル(初期モデル)は従来法と同じモデルを用いていた。この初期モデルは複数の話者に広がった「荒い」モデルとなっており、テンソル解析を用いた提案手法に対しても制約を与えていると考えられていた。そこで、このような初期モデルを縮退させる効果を持つ話者正規化学習と呼ばれるモデル学習法を、テンソル解析に基づく話者性表現と組み合わせることで、より高精度なモデル構築及び声質変換を実現した。さらにこの手法をベースに任意話者間の声質変換を実現するとともに、話者空間を声質の空間として解釈し、話声から歌声へのスタイル変換をこの空間上での写像として実現する手法についても実験的な検討を行った。2年間の課題遂行を通して、高精度な話者性制御機能の基盤を構築できたといえる。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|