研究課題/領域番号 |
24700166
|
研究種目 |
若手研究(B)
|
研究機関 | 名古屋工業大学 |
研究代表者 |
南角 吉彦 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (80397497)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 国際情報交換 |
研究概要 |
本研究の目的は,ごく少量のデータでスペクトル情報と韻律情報,話速などを統一的に変換する声質変換手法を構築することである。従来の声質変換手法が音色を表すスペクトル情報のみに注目していたのに対し,提案法では,声の高さや抑揚・話速など,話者性を含むすべての情報を統一的に扱うため,相互の相関を利用してより高精度な声質変換を実現することができる.また,近年,音声認識や音声合成で適用されたベイズ基準を適用し,あらかじめ収集した多量のデータを利用し,ごく少量のデータで瞬時に高精度な変換器を構築するための枠組みを提案する.本年度は、これらの目標に対し、まず、スペクトル・基本周波数・継続長の同時変換のためのモデル構造の定義し、理論的な検証を行った。また、定義したモデル構造に対して、適切な学習アルゴリズムの導出や改良についても検証を行った。このように、理論的な部分に関しては順調に計画が進行しており、今後の評価実験に向けて準備が整ってきている。また、次年度に行う予定であったベイズ基準の適用についても、計画を前倒しして研究を進めている。具体的には、ベイズ基準における事前情報として大量のデータを有効に利用するため、因子分析に基づく声質変換器の構造を定義し、学習アルゴリズムの導出を行った。さらには、この構造を有効性を確認するため、提案したモデル構造をHMM音声合成に適用し、評価実験において、ごく少量のデータで様々な声質が実現可能であることを示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の目標は、提案する声質変換器のための理論的な整備であった。特に、スペクトル・基本周波数・継続長の同時変換のためのモデル構造を適切に定義することは、本研究において最も重要な点であるが、本年度はこの点において理論的な検証を行い、十分な成果をあげることができた。また、定義したモデル構造に対して、適切な学習アルゴリズムの導出や改良についても検証を行った。この点においては、計画通りに研究が進行できており、 次年度以降の評価実験に向けての準備が整っている。また、次年度に行う予定であった、ベイズ基準の適用については、計画以上に研究が進展している。具体的には、ベイズ基準における事前情報として大量のデータを有効に利用するために、因子分析に基づく声質変換器の構造を定義し、学習アルゴリズムの導出を行った。このモデルでは、あらかじめ用意された大量の話者データから効率的な声質の特徴表現を学習時に抽出しておくことにより、声質変換時にごく少量のデータで目標話者の声質が高品質に再現できるというものである。声質変換では、入力話者の特徴量と出力話者の特徴量を同時にモデル化する必要があるが、本年度はまず、単独話者のモデル化について因子分析に基づくモデルを実装し、音声合成に適用した。音声合成における実験では、因子分析モデルに基づいて様々な声質の音声がごく少量のデータで再現できることを確認した。次年度以降に、この手法に基づいた声質変換器を実装し評価実験を行う予定である。以上のように、現在までの研究の達成度としては概ね順調であると言える。
|
今後の研究の推進方策 |
これまでの研究は概ね計画通りに進捗しており、今後も当初の計画通りに研究を推進していく。具体的には、スペクトル・基本周波数・継続長の同時変換のためのモデル構造について実装および評価実験を進め、提案手法の有効性を確認する。また、ベイズ基準の適用についても、本年度音声合成に適用した因子分析に基づく手法を声質変換に利用可能な形に拡張し、評価実験を行っていく。さらには、このモデルをベイズ基準の事前分布として組み込んだモデルについて、理論的な整備と学習アルゴリズムの導出を行い、大量のデータを有効に利用する方法について模索していく。研究としては、本年度の理論的な整備から、評価実験を行うステージに移行しつつあるが、評価実験の結果を適切にフィードバックしていくことにより、理論的な枠組みについても適宜、改善・強化していく予定である。
|
次年度の研究費の使用計画 |
本研究では,音声を複雑な統計モデルでモデル化するため,計算機による実験では膨大な計算量が必要となる.また,現段階では,アプリケーションとして実用的ではない計算量の実験であっても,将来のハードウェアの高速化を考慮して,計算能力の高い計算機を用いて実験を行っていく必要がある.このために必要なワークステーションを増強する予定である.また,評価実験においては,音声データや実験に必要なデータを蓄積する必要があるため,現有の設備を活かしつつ,データの蓄積装置を増強することにより対処する.以上の実験で得られた研究成果は,その都度,国内外の学会(日本音響学会,ISCA Interspeech, IEEE ICASSP等)で発表する予定である. 特に、次年度の研究経費では、昨年度に比べ情報収集や成果発表のための旅費を増強する予定である。また、ベイズ基準に基づいた手法の評価には大量の音声データが必要となるため、ストレージサーバを増強する予定である。
|