2012 年度実績報告書

テンソル解析を基盤とする高精度な話者性制御に基づく声質変換の研究

研究課題

研究課題/領域番号	23800015
研究機関	東京大学
研究代表者	齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)
研究期間 (年度)	2011-08-24 – 2013-03-31
キーワード	音声工学 / 音声合成 / 声質変換
研究概要	本研究課題では、音声情報処理の福祉応用・エンターテインメント応用の基盤技術となる高精度かつ柔軟な話者性制御機能を有する声質変換手法を構築することを目的とし、その技術確立に取り組んだ。声質変換は話者変換とも呼ばれ、入力音声の言語内容を保持しつつ、話者性などの非言語情報を所望のものに変換する技術である。本研究では、人間の音声に内包される、言語内容を表す言語的情報、話者性等の非言語的情報、および発話様態を表すようなパラ言語的情報といった多様な情報に対して、テンソル情報解析を基盤とする適切な分解・再構成の枠組みの確立を目指した。本年度における研究課題の遂行では、まず前年度において確立した、テンソル解析に基づく事前パラレルデータを利用した話者空間の構築プロセスにおいて、音声認識および音声合成でこれまで成果のあった話者正規化学習という手法を組み合わせる事でより高精度なモデルを構築することを目指した。テンソル解析を用いた話者空間構築は、多様な情報を適切にモデル化した分解を実現するが、事前学習の初期に構築されるモデル（初期モデル）は従来法と同じモデルを用いていた。この初期モデルは複数の話者に広がった「荒い」モデルとなっており、テンソル解析を用いた提案手法に対しても制約を与えていると考えられていた。そこで、このような初期モデルを縮退させる効果を持つ話者正規化学習と呼ばれるモデル学習法を、テンソル解析に基づく話者性表現と組み合わせることで、より高精度なモデル構築及び声質変換を実現した。さらにこの手法をベースに任意話者間の声質変換を実現するとともに、話者空間を声質の空間として解釈し、話声から歌声へのスタイル変換をこの空間上での写像として実現する手法についても実験的な検討を行った。2年間の課題遂行を通して、高精度な話者性制御機能の基盤を構築できたといえる。
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(10件)

すべて 2013 2012

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (8件)

[雑誌論文] Statistical voice conversion based on noisy channel model2012
- 著者名/発表者名
  D. Saito, S. Watanabe, A. Nakamura, N.Minematsu
- 雑誌名
  
  IEEE Transaction on Audio, Speech and Language Processing
  
  巻: 20 ページ: 1784-1794
- 査読あり
[雑誌論文] 空間写像に基づく母音と鼻子音を対象としたジェスチャー－音声変換システム2012
- 著者名/発表者名
  國越晶, 喬宇, 齋藤大輔, 峯松信明, 広瀬啓吉
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 53 ページ: 2291-2301
- 査読あり
[学会発表] Eigenvoice-based character conversion for arbitrary speakers using various character voices of a skilled voice actor2013
- 著者名/発表者名
  T. Pongkittiphan, D. Saito, N. Minematsu, K. Hirose
- 学会等名
  RISP International Workshop on Nonlinear Circuits, Communication and Signal Processing
- 発表場所
  Hawaii, USA
- 年月日
  20130304-20130307
[学会発表] テンソル表現に基づく任意話者声質変換に対する話者正規化学習の効果2012
- 著者名/発表者名
  齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  東北工業大学, 仙台
- 年月日
  20121108-20121109
[学会発表] Tensor-based speaker space construction for arbitrary speaker conversion2012
- 著者名/発表者名
  D. Saito, N. Minematsu, K. Hirose
- 学会等名
  International Conference on Signal Processing
- 発表場所
  Beijing, China
- 年月日
  20121021-20121025
[学会発表] テンソル表現に基づく任意話者声質変換における話者正規化学習の検討2012
- 著者名/発表者名
  齋藤大輔, 峯松信明, 広瀬啓吉
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  信州大学, 長野
- 年月日
  20120919-20120921
[学会発表] 声質空間上での変換を用いた歌声らしさの転写2012
- 著者名/発表者名
  齋藤大輔, 石原達馬, 橘秀幸, 亀岡弘和, 嵯峨山茂樹
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  信州大学, 長野
- 年月日
  20120919-20120921
[学会発表] Effects of speaker adaptive training on tensor-based arbitrary speaker conversion2012
- 著者名/発表者名
  D. Saito, N. Minematsu, K. Hirose
- 学会等名
  Annual Conference of the International Speech Communication Association (INTERSPEECH)
- 発表場所
  Portland, Oregon, USA
- 年月日
  20120909-20120913
[学会発表] 声質空間上での変換に基づく歌声らしさの転写に関する検討2012
- 著者名/発表者名
  齋藤大輔, 石原達馬, 橘秀幸, 亀岡弘和, 嵯峨山茂樹
- 学会等名
  情報処理学会音楽情報科学研究会
- 発表場所
  近江町交流プラザ, 石川
- 年月日
  20120809-20120811
[学会発表] Eignvoice-based character conversion and its evaluation2012
- 著者名/発表者名
  T. Pongkittiphan, D. Saito, N. Minematsu, K. Hirose
- 学会等名
  電子情報通信学会音声研究会
- 発表場所
  NTT厚木研究開発センター, 神奈川
- 年月日
  20120614-20120615

2012 年度 実績報告書

テンソル解析を基盤とする高精度な話者性制御に基づく声質変換の研究

研究代表者

齋藤 大輔 東京大学, 情報理工学(系)研究科, 助教 (40615150)

理由

研究成果

[雑誌論文] Statistical voice conversion based on noisy channel model2012

著者名/発表者名

雑誌名

[雑誌論文] 空間写像に基づく母音と鼻子音を対象としたジェスチャー－音声変換システム2012

著者名/発表者名

雑誌名

[学会発表] Eigenvoice-based character conversion for arbitrary speakers using various character voices of a skilled voice actor2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] テンソル表現に基づく任意話者声質変換に対する話者正規化学習の効果2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Tensor-based speaker space construction for arbitrary speaker conversion2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] テンソル表現に基づく任意話者声質変換における話者正規化学習の検討2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 声質空間上での変換を用いた歌声らしさの転写2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Effects of speaker adaptive training on tensor-based arbitrary speaker conversion2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 声質空間上での変換に基づく歌声らしさの転写に関する検討2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Eignvoice-based character conversion and its evaluation2012

著者名/発表者名

学会等名

発表場所

年月日

2012 年度実績報告書

齋藤大輔東京大学, 情報理工学(系)研究科, 助教 (40615150)