2016 年度実績報告書

統計的音声合成を利用したインタラクティブオーディオブックと集合知への応用

研究課題

研究課題/領域番号	15K12071
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
研究期間 (年度)	2015-04-01 – 2017-03-31
キーワード	音声合成 / オーディオブック / インタラクティブ / 集合知 / ディープラーニング
研究実績の概要	電子書籍は読んで楽しむだけでなく、聞いて楽しむことも出来るが、現在利用されている音声合成は、文章をただ読み上げているだけであり魅力に欠けている。音声合成の研究分野において、声を変える、声を混ぜる、韻律などを発話中にリアルタイム制御する技術等も鋭意検討されており、これらを電子書籍と統合すれば、音声を聞くだけでなく、合成音声の表現をユーザ自身がインタラクティブに制御し、魅力的なオーディオブックを自由に創作することが出来るエンターテイメント性の高いプラットフォームに拡張可能になると期待される。そこで本研究では、柔軟な制御が可能である統計的音声合成を利用した電子書籍を試作し、声を変える技術（話者適応技術）、声を混ぜる技術(補間技術)等を利用した斬新なインタラクティブオーディオブックを試作した。また、アプリにおける制御を向上させる基礎技術の検討も行なった。１）制御の際に考慮したい要素のすべての組み合わせ（例：話者数×方言数×複数の発話様式）を全てカバーしたデータベースを収録することはコストが非常にかかり非現実的である。そこで、限られた規模の音声データベースから、これらの要因を明示的に因子化した音声の変換関数を推定する研究を行った。具体的には、統計的音声合成において、他の異なる話者の音声データから得られた感情表現を、全く別の話者へ「移植」するためのアルゴリズムの検討や、トピックモデルにより検出されたトピックと統計的音声合成システムを密結合させる取り組みを行った。さらに、近年大きな進展を見せているディープラーニングを導入することも行なった。まず、ディープラーニングにより得られた音響モデルをオーディオブックアプリで利用できるようライブラリを拡張し、さらに、ディープラーニングにより声を変える、声を混ぜる、韻律などを発話中にリアルタイム制御する方法の検討も行い、実現可能であることを示した。

研究成果
(6件)

すべて 2017 2016 その他

すべて国際共同研究 (2件) 学会発表 (4件) (うち国際学会 4件)

[国際共同研究] マドリッド工科大学(スペイン)
- 国名
  スペイン
- 外国機関名
  マドリッド工科大学
[国際共同研究] アルト大学(フィンランド)
- 国名
  フィンランド
- 外国機関名
  アルト大学
[学会発表] DAPTING AND CONTROLLING DNN-BASED SPEECH SYNTHESIS USING INPUT CODES2017
- 著者名/発表者名
  Hieu-Thi Luong, Shinji Takaki, Gustav Eje Henter, Junichi Yamagishi
- 学会等名
  The 42nd IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017)
- 発表場所
  HILTON NEW ORLEANS RIVERSIDE (New Orleans, USA)
- 年月日
  2017-03-05 – 2017-03-09
- 国際学会
[学会発表] Continuous Expressive Speaking Styles Synthesis based on CVSM and MR-HMM2016
- 著者名/発表者名
  Jaime Lorenzo-Trueba, Roberto Barra-Chicote, Ascension Gallardo-Antolin, Junichi Yamagishi, Juan M. Montero
- 学会等名
  The 26th International Conference on Computational Linguistics (COLING 2016)
- 発表場所
  Osaka, Japan
- 年月日
  2016-12-13 – 2016-12-16
- 国際学会
[学会発表] The NII speech synthesis entry for Blizzard Challenge 20162016
- 著者名/発表者名
  Lauri Juvela, Xin Wang, Shinji Takaki, SangJin Kim, Manu Airaksinen, Junichi Yamagishi
- 学会等名
  Blizzard Challenge workshop 2016
- 発表場所
  De Anza 3 Theater, Apple Inc (Cupertino, USA)
- 年月日
  2016-09-16 – 2016-09-16
- 国際学会
[学会発表] Speaker Adaptation of Various Components in Deep Neural Network based Speech Synthesis2016
- 著者名/発表者名
  Shinji Takaki, SangJin Kim, Junichi Yamagishi
- 学会等名
  The 9th ISCA Workshop on Speech Synthesis (SSW-9)
- 発表場所
  Plug and Play Tech Center (Sunnyvale, USA)
- 年月日
  2016-09-13 – 2016-09-15
- 国際学会

2016 年度 実績報告書

統計的音声合成を利用したインタラクティブオーディオブックと集合知への応用

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)

研究成果

[国際共同研究] マドリッド工科大学(スペイン)

国名

外国機関名

[国際共同研究] アルト大学(フィンランド)

国名

外国機関名

[学会発表] DAPTING AND CONTROLLING DNN-BASED SPEECH SYNTHESIS USING INPUT CODES2017

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Continuous Expressive Speaking Styles Synthesis based on CVSM and MR-HMM2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] The NII speech synthesis entry for Blizzard Challenge 20162016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Speaker Adaptation of Various Components in Deep Neural Network based Speech Synthesis2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実績報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)