2022 年度実績報告書

AI噺家は人を楽しませる事ができるのか？－落語音声合成の表現力向上と噺の自動生成

研究課題

研究課題/領域番号	21K19808
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
研究分担者	Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
研究期間 (年度)	2021-07-09 – 2023-03-31
キーワード	音声合成 / 落語 / 深層学習 / 言語生成
研究実績の概要	我々は日本の伝統話芸である落語の実演データから深層学習モデルを学習し、あたかもプロの落語家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築し、聞き手を楽しませる「AI噺家」の実現を目指し研究を行っている。本研究では、長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上、および、ニューラル言語モデルによる噺の自動生成と言う挑戦的課題に取り組む事で、演目名を指定すれば落語音声が都度異なる形で生成される新たなシステムの実現に必要な基礎技術を探求する。【課題1:長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上】落語家と同程度に聞き手を楽しませる音響的表現力を実現するため、音声合成の音響モデルを向上させ、落語で多用される笑い・咀嚼音・咳払い等の非言語情報の明示的モデル化も取り組む事が課題１である。この課題1の達成に向け、モデル化単位を複数の呼気段落に変更し、また同時に、前後の呼気段落を連結することで学習データを擬似的に増やす学習法を試みた。さらにTacotron、Transformer、VITS、FastPitchという様々な音響モデルによるシステムの評価を行なった。また笑いといった非言語情報の入力制御情報として、時間周波数領域のビンを入力情報として利用する新たな試みも行なった。【課題2:ニューラル言語モデルによる噺の自動生成】落語の噺が毎回完全同一では聞き手を楽しませる事は不可能である。そこでニューラル言語モデルにより落語の噺を自動生成する枠組みの検証が課題2である。この課題のために、種々の落語音源の書き起こしを行い、本課題に必要なデータ整備を行なうと同時に、GPT-2、BART、T5といったニューラル言語モデルを物語の文章によりFine-tuningし、題目から話を生成する比較実験も行いその効果を確かめた。

研究成果
(2件)

すべて 2022

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (1件) (うち国際学会 1件、招待講演 1件)

[雑誌論文] Generalization Ability of MOS Prediction Networks2022
- 著者名/発表者名
  Cooper Erica、Huang Wen-Chin、Toda Tomoki、Yamagishi Junichi
- 雑誌名
  
  ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  巻: - ページ: 8442-8446
- DOI
  10.1109/ICASSP43922.2022.9746395
- 査読あり / オープンアクセス
[学会発表] Speech Synthesis Research 2.02022
- 著者名/発表者名
  Junichi Yamagishi
- 学会等名
  34TH CONFERENCE ON COMPUTATIONAL LINGUISTICS AND SPEECH PROCESSING (Rocling 2022), Taiwan
- 国際学会 / 招待講演

2022 年度 実績報告書

AI噺家は人を楽しませる事ができるのか？－落語音声合成の表現力向上と噺の自動生成

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)

研究成果

[雑誌論文] Generalization Ability of MOS Prediction Networks2022

著者名/発表者名

雑誌名

DOI

[学会発表] Speech Synthesis Research 2.02022

著者名/発表者名

学会等名

2022 年度実績報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)