研究課題
我々は日本の伝統話芸である落語の実演データから深層学習モデルを学習し、あたかもプロの落語家の様に、噺を読み上げる落語音声合成システムを最先端音声 合成技術に基づき構築し、聞き手を楽しませる「AI噺家」の実現を目指し研究を行っている。本研究では、長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上、および、ニューラル言語モデルによる噺の自動生成と言う挑戦的課題に取り組む事で、演目名を指定すれば落語音声が都度異なる形で生成される新たなシステムの実現に必要な基礎技術を探求する。【課題1:長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上】落語家と同程度に聞き手を楽しませる音響的表現力を実現するため、音声合成の音響モデルを向上させ、落語で多用される笑い・咀嚼音・咳払い等の非言語情報の明示的モデル化も取り組む事が課題1である。この課題1の達成に向け、モデル化単位を複数の呼気段落に変更し、また同時に、前後の呼気段落を連結することで学習データを擬似的に増やす学習法を試みた。さらにTacotron、Transformer、VITS、FastPitchという様々な音響モデルによるシステムの評価を行なった。また笑いといった非言語情報の入力制御情報として、時間周波数領域のビンを入力情報として利用する新たな試みも行なった。【課題2:ニューラル言語モデルによる噺の自動生成】落語の噺が毎回完全同一では聞き手を楽しませる事は不可能である。そこでニューラル言語モデルにより落語の噺を自動生成する枠組みの検証が課題2である。この課題のために、種々の落語音源の書き起こしを行い、本課題に必要なデータ整備を行なうと同時に、GPT-2、BART、T5といったニューラル言語モデルを物語の文章によりFine-tuningし、題目から話を生成する比較実験も行いその効果を確かめた。
すべて 2022
すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (1件) (うち国際学会 1件、 招待講演 1件)
ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
巻: - ページ: 8442-8446
10.1109/ICASSP43922.2022.9746395