研究課題/領域番号 |
15K12071
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 准教授 (70709352)
|
研究期間 (年度) |
2015-04-01 – 2017-03-31
|
キーワード | 音声情報処理 / 音声合成 / 集合知 / オーディオブック |
研究実績の概要 |
統計的音声合成は柔軟性にすぐれ、声を変える、声を混ぜる、さらには、韻律などを発話中にリアルタイム制御することもでき、様々な声質、発話様式、方言による音声出力が実現可能である。この統計的音声合成のメリットを活かすことで、例えば、文章を読み上げる声優、使用する方言、発話様式等を自由に配置可能なオーディオブック等のアプリを作成でき、ユーザは自由にかつインタラクティブにオーディオブックを創作することが可能になると考えられる。 そこで本年度は、オーディオブックを自由にかつインタラクティブに創作することが可能なプラットフォームの試作をモバイル端末上で行った。試作したアプリはiOS上で動作し、ePubフォーマットの電子書籍をHMM音声合成にて読み上げるものである。所望の音声合成用ボイスが利用できる様、ユーザがアップロードした音声から音声合成用音響モデルを自動構築するサーバとも連携させ、自由に話者をダウンロード・選択できる様にした。また、ユーザがどの話者をどのコンテンツに利用したか、人気の話者などのメタ情報を逐次記録できる様にした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
日本の音声情報処理技術のさらなる高度化を牽引するため、声質変換技術のコンペ(Voice Conversion Challenge 2016, vc-challenge.org)への協力、音声合成等による話者照合システムへの詐称を検出する技術のコンペ(ASVspoof 2015, www.spoofingchallenge.org) への協力、音声合成技術の医療応用(ボイスバンク)の実証実験実施など、様々な分野へ技術的・社会的貢献も基礎研究と並行して行った。
|
今後の研究の推進方策 |
H28年度はこれらのメタデータをユーザ間で共有出来る様にすると同時に、これらのメタデータを教師データとして機械学習に利用することで、与えられたテキストを読み上げるのにふさわしい話者、方言、発話様式の自動予測といった自然言語処理問題に挑戦する予定である。この様な「ゲーミフィケーション」と「集合知」により得られた音声合成の知見や新モジュールは、音声合成だけでなく、例えば、音声対話システムの改善にも今後利用可能であると期待される。
|