2015 年度実施状況報告書

統計的音声合成を利用したインタラクティブオーディオブックと集合知への応用

研究課題

研究課題/領域番号	15K12071
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
研究期間 (年度)	2015-04-01 – 2017-03-31
キーワード	音声情報処理 / 音声合成 / 集合知 / オーディオブック
研究実績の概要	統計的音声合成は柔軟性にすぐれ、声を変える、声を混ぜる、さらには、韻律などを発話中にリアルタイム制御することもでき、様々な声質、発話様式、方言による音声出力が実現可能である。この統計的音声合成のメリットを活かすことで、例えば、文章を読み上げる声優、使用する方言、発話様式等を自由に配置可能なオーディオブック等のアプリを作成でき、ユーザは自由にかつインタラクティブにオーディオブックを創作することが可能になると考えられる。そこで本年度は、オーディオブックを自由にかつインタラクティブに創作することが可能なプラットフォームの試作をモバイル端末上で行った。試作したアプリはiOS上で動作し、ePubフォーマットの電子書籍をHMM音声合成にて読み上げるものである。所望の音声合成用ボイスが利用できる様、ユーザがアップロードした音声から音声合成用音響モデルを自動構築するサーバとも連携させ、自由に話者をダウンロード・選択できる様にした。また、ユーザがどの話者をどのコンテンツに利用したか、人気の話者などのメタ情報を逐次記録できる様にした。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由日本の音声情報処理技術のさらなる高度化を牽引するため、声質変換技術のコンペ(Voice Conversion Challenge 2016, vc-challenge.org)への協力、音声合成等による話者照合システムへの詐称を検出する技術のコンペ（ASVspoof 2015, www.spoofingchallenge.org) への協力、音声合成技術の医療応用（ボイスバンク）の実証実験実施など、様々な分野へ技術的・社会的貢献も基礎研究と並行して行った。
今後の研究の推進方策	H28年度はこれらのメタデータをユーザ間で共有出来る様にすると同時に、これらのメタデータを教師データとして機械学習に利用することで、与えられたテキストを読み上げるのにふさわしい話者、方言、発話様式の自動予測といった自然言語処理問題に挑戦する予定である。この様な「ゲーミフィケーション」と「集合知」により得られた音声合成の知見や新モジュールは、音声合成だけでなく、例えば、音声対話システムの改善にも今後利用可能であると期待される。

研究成果
(5件)

すべて 2016 2015 その他

すべて国際共同研究 (2件) 雑誌論文 (1件) (うち国際共著 1件、査読あり 1件) 学会発表 (2件) (うち国際学会 2件)

[国際共同研究] Technical University of Madrid(スペイン)
- 国名
  スペイン
- 外国機関名
  Technical University of Madrid
[国際共同研究] University of Edinburgh(英国)
- 国名
  英国
- 外国機関名
  University of Edinburgh
[雑誌論文] Emotion transplantation through adaptation in HMM-based speech synthesis2015
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Roberto Barra-Chicote, Rubén San-Segundo, Javier Ferreiros, Junichi Yamagishi, Juan M. Montero
- 雑誌名
  
  Computer Speech & Language
  
  巻: 34 (1) ページ: 292, 307
- DOI
  doi:10.1016/j.csl.2015.03.008
- 査読あり / 国際共著
[学会発表] WAVELET-BASED DECOMPOSITION OF F0 AS A SECONDARY TASK FOR DNN-BASED SPEECH SYNTHESIS WITH MULTI-TASK LEARNING2016
- 著者名/発表者名
  Manuel Sam Ribeiro, Oliver Watts, Junichi Yamagishi Robert A. J. Clark
- 学会等名
  ICASSP 2016
- 発表場所
  Shanghai, China
- 年月日
  2016-03-20 – 2016-03-25
- 国際学会
[学会発表] A perceptual investigation of wavelet-based decomposition of f0 for text-to-speech synthesis2015
- 著者名/発表者名
  Manuel Sam Ribeiro, Junichi Yamagishi, Robert A. J. Clark
- 学会等名
  Interspeech 2015
- 発表場所
  Dresden, German
- 年月日
  2015-09-06 – 2015-09-10
- 国際学会

2015 年度 実施状況報告書

統計的音声合成を利用したインタラクティブオーディオブックと集合知への応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)

現在までの達成度 (区分)

理由

研究成果

[国際共同研究] Technical University of Madrid(スペイン)

国名

外国機関名

[国際共同研究] University of Edinburgh(英国)

国名

外国機関名

[雑誌論文] Emotion transplantation through adaptation in HMM-based speech synthesis2015

著者名/発表者名

雑誌名

DOI

[学会発表] WAVELET-BASED DECOMPOSITION OF F0 AS A SECONDARY TASK FOR DNN-BASED SPEECH SYNTHESIS WITH MULTI-TASK LEARNING2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A perceptual investigation of wavelet-based decomposition of f0 for text-to-speech synthesis2015

著者名/発表者名

学会等名

発表場所

年月日

2015 年度実施状況報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)