2017 Fiscal Year Research-status Report
Project/Area Number |
17K12711
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
郡山 知樹 東京工業大学, 工学院, 助教 (50749124)
|
Project Period (FY) |
2017-04-01 – 2019-03-31
|
Keywords | 統計的音声合成 / ガウス過程潜在変数モデル / 生成モデル / 深層ガウス過程 / アクセント / 韻律 |
Outline of Annual Research Achievements |
音声合成技術の発展に伴いスマートフォンの音声対話システムや映像コンテンツなど,応用場面が広がりつつある.音声合成システムの構築は,発話内容を記述したラベルとそれに対応する音声を用意し,その関係を機械学習によりモデル化することで行われる.ただし,話し言葉やオーディオブックなどに含まれる音声の多様な表現を網羅するような学習データの作成は容易ではない.特に,アクセントや句末の疑問・確認などの発話意図に伴うピッチパターンを,人手でラベリングすることは困難である.そこで,韻律パターンの自動獲得を目的として,生成モデルであるガウス過程潜在変数モデルに基づく手法の確立を目指す. 初年度はまず,ガウス過程潜在変数モデルに基づいて基本周波数曲線を低次元化する手法を,日本語のアクセントを対象に検討した.しかし,基本周波数曲線だけでは期待通り性能が得られなかったため,スペクトル情報との組合せの可能な深層ガウス過程の検討を行った. 本研究において提案した深層ガウス過程による音声合成モデルは,入力にラベルに基づく音韻・韻律情報を,出力をスペクトル・基本周波数といった音響特徴量とするものである.このモデルは出力を未知とすることで識別モデルとして音声合成を行い,入力を未知とすることで生成モデルとしてラベルの潜在表現を獲得することが可能な柔軟性の高いモデルである.初年度の検討では,前者の音声合成の評価を行い,広く使用されているディープニューラルネットワークに基づく音声合成に比べ,高精度な予測が可能であることを客観評価実験により確認し,深層ガウス過程を使用することの有効性を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
期待通りの結果が得られなかった場合に導入を計画していた,深層ガウス過程の検討を行った.しかし当初の予定では,モデルを識別モデルとして使用する音声合成システムだけではなく,生成モデルとして使用し韻律の自動獲得を目的としていた.したがってやや遅れているとの評価とした.
|
Strategy for Future Research Activity |
今後は初年度に行うことのできなかった深層ガウス過程によるアクセントの自動ラベリングを行い,その評価を行う.また研究計画の通り,ラベル推定を行う半教師付き学習を用いた音声合成システムの検討を行い,話し言葉など様々な音声データに対して適用する.
|
Research Products
(3 results)