電子書籍は読んで楽しむだけでなく、聞いて楽しむことも出来るが、現在利用されている音声合成は、文章をただ読み上げているだけであり魅力に欠けている。音声合成の研究分野において、声を変える、声を混ぜる、韻律などを発話中にリアルタイム制御する技術等も鋭意検討されており、これらを電子書籍と統合すれば、音声を聞くだけでなく、合成音声の表現をユーザ自身がインタラクティブに制御し、魅力的なオーディオブックを自由に創作することが出来るエンターテイメント性の高いプラットフォームに拡張可能になると期待される。 そこで本研究では、柔軟な制御が可能である統計的音声合成を利用した電子書籍を試作し、声を変える技術(話者適応技術)、声を混ぜる技術(補間技術)等を利用した斬新なインタラクティブオーディオブックを試作した。また、アプリにおける制御を向上させる基礎技術の検討も行なった。1)制御の際に考慮したい要素のすべての組み合わせ(例:話者数×方言数×複数の発話様式)を全てカバーしたデータベースを収録することはコストが非常にかかり非現実的である。そこで、限られた規模の音声データベースから、これらの要因を明示的に因子化した音声の変換関数を推定する研究を行った。具体的には、統計的音声合成において、他の異なる話者の音声データから得られた感情表現を、全く別の話者へ「移植」するためのアルゴリズムの検討や、トピックモデルにより検出されたトピックと統計的音声合成システムを密結合させる取り組みを行った。 さらに、近年大きな進展を見せているディープラーニングを導入することも行なった。まず、ディープラーニングにより得られた音響モデルをオーディオブックアプリで利用できるようライブラリを拡張し、さらに、ディープラーニングにより声を変える、声を混ぜる、韻律などを発話中にリアルタイム制御する方法の検討も行い、実現可能であることを示した。
|