2022 Fiscal Year Annual Research Report

Can AI Rakugoka entertain people? -Improved expressiveness of rakugo speech synthesis and automatic generation of storytelling

Research Project

Project/Area Number	21K19808
Research Institution	National Institute of Informatics
Principal Investigator	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
Co-Investigator(Kenkyū-buntansha)	Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
Project Period (FY)	2021-07-09 – 2023-03-31
Keywords	音声合成 / 落語 / 深層学習 / 言語生成
Outline of Annual Research Achievements	我々は日本の伝統話芸である落語の実演データから深層学習モデルを学習し、あたかもプロの落語家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築し、聞き手を楽しませる「AI噺家」の実現を目指し研究を行っている。本研究では、長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上、および、ニューラル言語モデルによる噺の自動生成と言う挑戦的課題に取り組む事で、演目名を指定すれば落語音声が都度異なる形で生成される新たなシステムの実現に必要な基礎技術を探求する。【課題1:長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上】落語家と同程度に聞き手を楽しませる音響的表現力を実現するため、音声合成の音響モデルを向上させ、落語で多用される笑い・咀嚼音・咳払い等の非言語情報の明示的モデル化も取り組む事が課題１である。この課題1の達成に向け、モデル化単位を複数の呼気段落に変更し、また同時に、前後の呼気段落を連結することで学習データを擬似的に増やす学習法を試みた。さらにTacotron、Transformer、VITS、FastPitchという様々な音響モデルによるシステムの評価を行なった。また笑いといった非言語情報の入力制御情報として、時間周波数領域のビンを入力情報として利用する新たな試みも行なった。【課題2:ニューラル言語モデルによる噺の自動生成】落語の噺が毎回完全同一では聞き手を楽しませる事は不可能である。そこでニューラル言語モデルにより落語の噺を自動生成する枠組みの検証が課題2である。この課題のために、種々の落語音源の書き起こしを行い、本課題に必要なデータ整備を行なうと同時に、GPT-2、BART、T5といったニューラル言語モデルを物語の文章によりFine-tuningし、題目から話を生成する比較実験も行いその効果を確かめた。

Research Products
(2 results)

All 2022

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results, Invited: 1 results)

[Journal Article] Generalization Ability of MOS Prediction Networks2022
- Author(s)
  Cooper Erica、Huang Wen-Chin、Toda Tomoki、Yamagishi Junichi
- Journal Title
  
  ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  Volume: - Pages: 8442-8446
- DOI
  10.1109/ICASSP43922.2022.9746395
- Peer Reviewed / Open Access
[Presentation] Speech Synthesis Research 2.02022
- Author(s)
  Junichi Yamagishi
- Organizer
  34TH CONFERENCE ON COMPUTATIONAL LINGUISTICS AND SPEECH PROCESSING (Rocling 2022), Taiwan
- Int'l Joint Research / Invited

2022 Fiscal Year Annual Research Report

Can AI Rakugoka entertain people? -Improved expressiveness of rakugo speech synthesis and automatic generation of storytelling

Principal Investigator

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)

Research Products

[Journal Article] Generalization Ability of MOS Prediction Networks2022

Author(s)

Journal Title

DOI

[Presentation] Speech Synthesis Research 2.02022

Author(s)

Organizer

山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)