AI噺家は人を楽しませる事ができるのか？－落語音声合成の表現力向上と噺の自動生成

研究課題

研究課題/領域番号	21K19808
研究種目	挑戦的研究(萌芽)
配分区分	基金
審査区分	中区分61:人間情報学およびその関連分野
研究機関	国立情報学研究所
研究代表者	山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
研究分担者	Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
研究期間 (年度)	2021-07-09 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円) 2022年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円) 2021年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
キーワード	音声合成 / 落語 / 深層学習 / 言語生成 / 音声情報処理 / 機械学習
研究開始時の研究の概要	我々は伝統話芸である落語の実演データから深層学習モデルを学習、あたかもプロの噺家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築した。従来の音声対話システムとは目的が全く異なり、聞き手を楽しませるAI噺家の実現を目標としている。本課題では、長期的音響情報および非言語情報の明示的モデル化により合成音声の表現力を向上させ、ニューラル言語モデルによる噺の自動生成に取り組む。
研究成果の概要	我々は落語の実演データからニューラルネットワークを学習し、プロの落語家風に噺をし聞き手を楽しませる事が可能なAI噺家の実現を目指し研究を行ない、以下の業績を挙げた。まず我々の落語DB上でTacotron、 Transformer、VITS、FastPitchという音声合成モデルを構築した。また落語で多用される笑い等の非言語情報の明示的モデリング法の開発にも取り組み、音声波形の概形を利用する新たな手法を提案した。さらに落語の噺が毎回完全同一では聞き手を楽しませる事は不可能であることから、GPT-2、BART、T5といったニューラル言語モデルにより落語の噺を自動生成する枠組みについても検討した。
研究成果の学術的意義や社会的意義	伝統話芸である落語を深層学習で再現し、AI噺家を実現しようと言う、本研究の試み自体が、情報伝達や質問回答を目的とする従来の音声対話システムとは目的が全く異なり、ユニークでかつ学術的意義のある試みである。構築された音声合成システムの比較実験からは、AI噺家が人を楽しませるためには、従来の音声合成の自然性に関する評価指標のみでは解決できない事も判明し、音声合成のモデリングのみならず評価体系を抜本的に変化させる必要があることも判明した。また同時に、Tacotron、 Transformer、FastPitchという種々のEnd-to-end音声合成モデルの中でどれが落語音声に適しているかも判明した。

報告書

(3件)

2022 実績報告書研究成果報告書 ( PDF )
2021 実施状況報告書

研究成果
(4件)

すべて 2022 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (2件) (うち国際学会 1件、招待講演 2件) 備考 (1件)

[雑誌論文] Generalization Ability of MOS Prediction Networks2022
- 著者名/発表者名
  Cooper Erica、Huang Wen-Chin、Toda Tomoki、Yamagishi Junichi
- 雑誌名
  
  ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
  
  巻: - ページ: 8442-8446
- DOI
  10.1109/icassp43922.2022.9746395
- 関連する報告書
  2022 実績報告書
- 査読あり / オープンアクセス
[学会発表] Speech Synthesis Research 2.02022
- 著者名/発表者名
  Junichi Yamagishi
- 学会等名
  34TH CONFERENCE ON COMPUTATIONAL LINGUISTICS AND SPEECH PROCESSING (Rocling 2022), Taiwan
- 関連する報告書
  2022 実績報告書
- 国際学会 / 招待講演
[学会発表] The VoiceMOS Challenge 20222022
- 著者名/発表者名
  Erica Cooper
- 学会等名
  Special Interest Group on Spoken Language Processing, Information Processing Society of Japan
- 関連する報告書
  2021 実施状況報告書
- 招待講演
[備考] Synthesizing laughter from waveform silhouettes
- URL
  https://arxiv.org/abs/2110.04946
- 関連する報告書
  2021 実施状況報告書

AI噺家は人を楽しませる事ができるのか？－落語音声合成の表現力向上と噺の自動生成

研究代表者

山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)

6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)

報告書

研究成果

[雑誌論文] Generalization Ability of MOS Prediction Networks2022

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] Speech Synthesis Research 2.02022

著者名/発表者名

学会等名

関連する報告書

[学会発表] The VoiceMOS Challenge 20222022

著者名/発表者名

学会等名

関連する報告書

[備考] Synthesizing laughter from waveform silhouettes

URL

関連する報告書

山岸順一国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)