2022 Fiscal Year Final Research Report
Can AI Rakugoka entertain people? -Improved expressiveness of rakugo speech synthesis and automatic generation of storytelling
Project/Area Number |
21K19808
|
Research Category |
Grant-in-Aid for Challenging Research (Exploratory)
|
Allocation Type | Multi-year Fund |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | National Institute of Informatics |
Principal Investigator |
Yamagishi Junichi 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
Co-Investigator(Kenkyū-buntansha) |
Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
|
Project Period (FY) |
2021-07-09 – 2023-03-31
|
Keywords | 音声合成 / 落語 / 深層学習 / 言語生成 |
Outline of Final Research Achievements |
We have conducted machine learning research to construct a DNN-based rakugo performer’s speech synthesis model, which can generate natural-sounding audio that entertains listeners by performing rakugo like a professional performer. First, we constructed speech synthesis models called Tacotron, Transformer, VITS, and FastPitch on our rakugo database. We also developed an explicit modeling method for nonverbal information such as laughter, which is frequently used in rakugo, and proposed a new method that uses the approximate shape of speech waveforms as input units. Furthermore, since it is impossible to entertain listeners if rakugo stories are exactly the same every time, we also studied a framework for automatic generation of rakugo stories using neural language models such as GPT-2, BART, and T5.
|
Free Research Field |
音声情報処理
|
Academic Significance and Societal Importance of the Research Achievements |
伝統話芸である落語を深層学習で再現し、AI噺家を実現しようと言う、本研究の試み自体が、情報伝達や質問回答を目的とする従来の音声対話システムとは目的が全く異なり、ユニークでかつ学術的意義のある試みである。構築された音声合成システムの比較実験からは、AI噺家が人を楽しませるためには、従来の音声合成の自然性に関する評価指標のみでは解決できない事も判明し、音声合成のモデリングのみならず評価体系を抜本的に変化させる必要があることも判明した。また同時に、Tacotron、 Transformer、FastPitchという種々のEnd-to-end音声合成モデルの中でどれが落語音声に適しているかも判明した。
|