2011 年度実績報告書

バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築

研究課題

研究課題/領域番号	22680016
研究機関	奈良先端科学技術大学院大学
研究代表者	戸田智基奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)
キーワード	音声情報処理 / 音声信号処理 / 音声合成 / 声質変換 / 声質制御 / リアルタイム処理 / 自動適応 / バリアフリー
研究概要	入力音声の特徴を自動的に学習しながら、リアルタイムで声質を自在に変換・制御できる次世代ボイスチェンジャー技術とその応用技術の構築を目指し、要素技術である高品質なリアルタイム声質変換法の評価及び改善(実施計画1)、自動オンライン適応法(多対一変換)の改善(実施計画2)、ユーザーカスタマイズ機能を備えた声質制御法(一対多変換)の構築(実施計画3)に取り組んだ。前年度に構築したリアルタイム声質変換法に基づき、リアルタイム変換処理ソフトウェアを実装した。その結果、約50～80ms程度の遅延時間で動作する変換処理を実現した。また、次年度以降に計画しているボイスチェンジャーの応用技術の構築やデモソフトウェアの作成についても着手し、発声障害者補助のための無喉頭音声強調、周囲に迷惑をかけないサイレント音声強調、歌声変換のためのボイスチェンジャーを構築し、リアルタイム処理が実現可能であることを確認した。自動オンライン適応処理(多対一変換)として、従来の固有声変換技術に対して、ベイズ的アプローチに基づく適応パラメータおよびモデルパラメータのモデリング法を導入した。これに伴い、前年度までに構築した自動オンライン適応処理を、より数理的に見通しの優れた枠組みにより再定式化した。変換性能に関しても、変換時に得られる入力音声のデータが極少量の場合に、事前分布の情報を活用することで、高い適応性能が得られることを明らかにした。声質制御処理(一対多変換)に対しても、ベイズ的アプローチに基づくモデリング法を導入し、声質制御パラメータおよびモデルパラメータに対する事前分布の使用を可能とした。既存手法と比較した結果、目標とする参照音声のデータ量が少量の場合においても高い声質制御性能を得ることができ、参照音声のデータ量が増加するに伴い、さらなる性能改善が得られることを示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由予定より進んでいる計画や、若干遅れ気味の計画があるが、全体的にみるとほぼ予定通り順調に進んでいる。
今後の研究の推進方策	当初の予定通り、要素技術の開発を進めるとともに、要素技術の統合に取り組む。今後の技術発展の見通しを良くするために、数理的に統一的な枠組みで統合することを試みる。また、各応用技術のデモソフトウェアの作成のみでなく、実際のユーザによる評価にも取り組んでいく予定である。

研究成果
(6件)

すべて 2012 2011

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (3件)

[雑誌論文] Statistical approach to voice quality control in esophageal speech enhancement2012
- 著者名/発表者名
  Kenzo Yamamoto
- 雑誌名
  
  Proceedings of ICASSP
  
  巻: (CD-ROM) ページ: 4497-4500
- 査読あり
[雑誌論文] Speaker-adaptive speech synthesis based on eigenvoice conversion and language-dependent prosodic conversion in speech-to-speech translation2011
- 著者名/発表者名
  Nobuaki Hattori
- 雑誌名
  
  Proceedings of INTERSPEECH
  
  巻: (CD-ROM) ページ: 2769-2772
- 査読あり
[雑誌論文] Computationally efficient body-conducted voice conversion with original excitation signals2011
- 著者名/発表者名
  Daisuke Deguchi
- 雑誌名
  
  Proceedings of APSIPAASC
  
  巻: (CD-ROM)
- 査読あり
[学会発表] 統計的食道音声強調におけるポーズ位置不一致データを活用したモデル学習2012
- 著者名/発表者名
  岸本真由美
- 学会等名
  日本音響学会春季研究発表会
- 発表場所
  神奈川大学(神奈川県)
- 年月日
  2012-03-14
[学会発表] 統計的無喉頭音声強調における学習データのポーズ位置不一致への対応2011
- 著者名/発表者名
  岸本真由美
- 学会等名
  音声研究会
- 発表場所
  九州大学(福岡県)
- 年月日
  2011-11-29
[学会発表] 統計的手法に基づく声質分析・変換・制御技術とその応用2011
- 著者名/発表者名
  戸田智基
- 学会等名
  日本音響学会秋季研究発表会
- 発表場所
  島根大学(島根県)(招待講演)
- 年月日
  2011-09-20

2011 年度 実績報告書

バリアフリー音声コミュニケーションのための次世代ボイスチェンジャー技術の構築

研究代表者

戸田 智基 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Statistical approach to voice quality control in esophageal speech enhancement2012

著者名/発表者名

雑誌名

[雑誌論文] Speaker-adaptive speech synthesis based on eigenvoice conversion and language-dependent prosodic conversion in speech-to-speech translation2011

著者名/発表者名

雑誌名

[雑誌論文] Computationally efficient body-conducted voice conversion with original excitation signals2011

著者名/発表者名

雑誌名

[学会発表] 統計的食道音声強調におけるポーズ位置不一致データを活用したモデル学習2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的無喉頭音声強調における学習データのポーズ位置不一致への対応2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的手法に基づく声質分析・変換・制御技術とその応用2011

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実績報告書

戸田智基奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (90403328)