2011 Fiscal Year Annual Research Report
テンソル解析を基盤とする高精度な話者性制御に基づく声質変換の研究
Project/Area Number |
23800015
|
Research Institution | The University of Tokyo |
Principal Investigator |
齋藤 大輔 東京大学, 大学院・情報理工学系研究科, 助教 (40615150)
|
Keywords | 音声工学 / 音声合成 / 声質変換 / テンソル解析 |
Research Abstract |
本研究課題では、音声情報処理の福祉応用・エンターテインメント応用の基盤技術となる高精度かつ柔軟な話者性制御機能を有する声質変換手法を確率することを目的とし、その技術確立に取り組んだ。声質変換は入力された音声の言語的内容を保存したまま、話者性などの非言語的情報を所望のものへと変換する技術である。通常発声される人間の音声には、多様な情報が含まれており、言語内容を表す言語的情報、話者性等の非言語的情報、および発話様態を表すようなパラ言語的情報がすべて内包された形となっている。本研究では、これらの情報を適切に分解して取り扱う枠組みとして、テンソル情報解析に着目し、高精度に任意話者への声質変換を実現する技術の確立を目指した。本年度における研究課題の遂行では、事前パラレルデータを利用して話者空間を構築するプロセスにおけるテンソル解析の効果について検討を行った。任意話者への声質変換の枠組みでは、通常まず参照話者と多数の事前話者のパラレルデータを用いて、正準的な変換モデルを学習する。個々の話者は、混合正規分布モデルで表されるが、今回の研究では、この各要素モデルの平均ベクトルを抽出し、行列の形式で表現した後、多数の話者の行列の集合に対して、テンソル解析に基づく分解を行うことで話者空間構築を実現した。この手法によって、音声に内在する様々な要因を適切に分解することが可能になり、声質変換の性能向上を実現することができた。本年度の検討事項は、話者空間を表現する新しい解析手法に関するものであり、音声情報処理における様々な波及効果が期待できる。今後は、テンソル解析の確率拡張や各種のモデル学習法との統合を通して、研究目的である高精度な話者性制御の実現を目指す。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
高精度な話者性制御の実現という観点から、テンソル解析の有効性を示しており、今後の技術展開の見通しも明確であるため、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
本研究課題で実現したテンソル解析に基づく話者空間構築は、声質変換以外にも拡張可能であり、様々な音声情報処理への利用も含めて検討を行う予定である。声質変換の高精度化のために、解析手法の確率的拡張や高精度なモデル学習との統合についても検討する。
|