研究課題/領域番号 |
21K19808
|
研究種目 |
挑戦的研究(萌芽)
|
配分区分 | 基金 |
審査区分 |
中区分61:人間情報学およびその関連分野
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
研究分担者 |
Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
|
研究期間 (年度) |
2021-07-09 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
6,370千円 (直接経費: 4,900千円、間接経費: 1,470千円)
2022年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2021年度: 3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
|
キーワード | 音声合成 / 落語 / 深層学習 / 言語生成 / 音声情報処理 / 機械学習 |
研究開始時の研究の概要 |
我々は伝統話芸である落語の実演データから深層学習モデルを学習、あたかもプロの噺家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築した。従来の音声対話システムとは目的が全く異なり、聞き手を楽しませるAI噺家の実現を目標としている。本課題では 、長期的音響情報および非言語情報の明示的モデル化により合成音声の表現力を向上させ、 ニューラル言語モデルによる噺の自動生成に取り組む。
|
研究成果の概要 |
我々は落語の実演データからニューラルネットワークを学習し、プロの落語家風に噺をし聞き手を楽しませる事が可能なAI噺家の実現を目指し研究を行ない、以下の業績を挙げた。まず我々の落語DB上でTacotron、 Transformer、VITS、FastPitchという音声合成モデルを構築した。また落語で多用される笑い等の非言語情報の明示的モデリング法の開発にも取り組み、音声波形の概形を利用する新たな手法を提案した。 さらに落語の噺が毎回完全同一では聞き手を楽しませる事は不可能であることから、GPT-2、BART、T5といったニューラル言語モデルにより落語の噺を自動生成する枠組みについても検討した。
|
研究成果の学術的意義や社会的意義 |
伝統話芸である落語を深層学習で再現し、AI噺家を実現しようと言う、本研究の試み自体が、情報伝達や質問回答を目的とする従来の音声対話システムとは目的が全く異なり、ユニークでかつ学術的意義のある試みである。構築された音声合成システムの比較実験からは、AI噺家が人を楽しませるためには、従来の音声合成の自然性に関する評価指標のみでは解決できない事も判明し、音声合成のモデリングのみならず評価体系を抜本的に変化させる必要があることも判明した。また同時に、Tacotron、 Transformer、FastPitchという種々のEnd-to-end音声合成モデルの中でどれが落語音声に適しているかも判明した。
|