2022 Fiscal Year Annual Research Report
Can AI Rakugoka entertain people? -Improved expressiveness of rakugo speech synthesis and automatic generation of storytelling
Project/Area Number |
21K19808
|
Research Institution | National Institute of Informatics |
Principal Investigator |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
Co-Investigator(Kenkyū-buntansha) |
Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
|
Project Period (FY) |
2021-07-09 – 2023-03-31
|
Keywords | 音声合成 / 落語 / 深層学習 / 言語生成 |
Outline of Annual Research Achievements |
我々は日本の伝統話芸である落語の実演データから深層学習モデルを学習し、あたかもプロの落語家の様に、噺を読み上げる落語音声合成システムを最先端音声 合成技術に基づき構築し、聞き手を楽しませる「AI噺家」の実現を目指し研究を行っている。本研究では、長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上、および、ニューラル言語モデルによる噺の自動生成と言う挑戦的課題に取り組む事で、演目名を指定すれば落語音声が都度異なる形で生成される新たなシステムの実現に必要な基礎技術を探求する。
【課題1:長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上】落語家と同程度に聞き手を楽しませる音響的表現力を実現するため、音声合成の音響モデルを向上させ、落語で多用される笑い・咀嚼音・咳払い等の非言語情報の明示的モデル化も取り組む事が課題1である。この課題1の達成に向け、モデル化単位を複数の呼気段落に変更し、また同時に、前後の呼気段落を連結することで学習データを擬似的に増やす学習法を試みた。さらにTacotron、Transformer、VITS、FastPitchという様々な音響モデルによるシステムの評価を行なった。また笑いといった非言語情報の入力制御情報として、時間周波数領域のビンを入力情報として利用する新たな試みも行なった。
【課題2:ニューラル言語モデルによる噺の自動生成】落語の噺が毎回完全同一では聞き手を楽しませる事は不可能である。そこでニューラル言語モデルにより落語の噺を自動生成する枠組みの検証が課題2である。この課題のために、種々の落語音源の書き起こしを行い、本課題に必要なデータ整備を行なうと同時に、GPT-2、BART、T5といったニューラル言語モデルを物語の文章によりFine-tuningし、題目から話を生成する比較実験も行いその効果を確かめた。
|
Research Products
(2 results)