研究課題
人間の音声のあらゆる多種多様性を表現できる音声合成を実現するためには、その音声合成技術の向上とともに、非常に大量の音声データが必要である。本研究では、「超巨大データベースを用いたユニバーサル音声モデル構築のための技術的基盤の構築」と、「音声データを永続的に収集・蓄積・共有・維持し続ける社会的基盤の構築」の2つを目的とする。当該年度は、技術的基盤の構築として、オーディオブックなどの音声合成システム構築用に整理されていない大量の音声データから音声合成システムを構築する手法について検討した。音声合成システムの構築のためには、発話内容が正確に書き起こされたテキストが付与された音声データが適しているが、発話内容とテキストの不一致や言い間違いなどが多数含まれた音声データから音声合成システムを構築可能にすることで、より多くの音声データを音声合成システムの構築に利用することが可能となり、合成音声の品質を改善することができる。また、ディープニューラルネットワークを用いた音声合成や声質変換などの新規理論の検証を行うことで、合成音声の自然性、柔軟性の改善に取り組んだ。また、社会的基盤の構築として、前年度から引き続き音声収録ツールの開発を進めると同時に、30人以上に対して実際に音声収録を行うことで、収集に必要な知見の集積と音声データの収集を行った。さらに、クリエイティブコモンズ等の代表的なライセンス形態と、提供された音声データを共有するために必要な要件を調査し、既存のライセンス形態をもとに様々な分野で共通して使用可能な統一的なライセンスの設計に取り組んだ。
27年度が最終年度であるため、記入しない。
すべて 2016 2015 その他
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (29件) (うち国際学会 9件、 招待講演 3件) 図書 (1件) 備考 (5件)
電子情報通信学会誌
巻: 98 ページ: 460-466
http://www.mmdagent.jp/
http://hts.sp.nitech.ac.jp/
http://sp-tk.sourceforge.net/
http://hts-engine.sourceforge.net/
http://open-jtalk.sourceforge.net/