研究課題/領域番号 |
21K19808
|
研究機関 | 国立情報学研究所 |
研究代表者 |
山岸 順一 国立情報学研究所, コンテンツ科学研究系, 教授 (70709352)
|
研究分担者 |
Cooper Erica 国立情報学研究所, コンテンツ科学研究系, 特任助教 (30843156)
|
研究期間 (年度) |
2021-07-09 – 2023-03-31
|
キーワード | 音声合成 / 落語 / 深層学習 / 言語生成 |
研究実績の概要 |
我々は日本の伝統話芸である落語の実演データから深層学習モデルを学習し、あたかもプロの落語家の様に、噺を読み上げる落語音声合成システムを最先端音声合成技術に基づき構築し、聞き手を楽しませる「AI噺家」の実現を目指し研究を行っている。本研究では、長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上、および、ニューラル言語モデルによる噺の自動生成と言う挑戦的課題に取り組む事で、演目名を指定すれば落語音声が都度異なる形で生成される新たなシステムの実現に必要な基礎技術を探求する。
【課題1:長期的音響情報および非言語情報の明示的モデル化による合成音声の表現力向上】落語家と同程度に聞き手を楽しませる音響的表現力を実現するため、音声合成のモデル化単位を、従来の1文章単位ではなく対話単位に変更し、かつ、アテンション法よりも長期依存性を適切に学習する事が可能なネットワーク構造を導入する事で、合成音声の表現力を向上させることが課題1である。また落語で多用される笑い・咀嚼音・咳払い等の非言語情報の明示的モデル化も取り組む。この課題1の達成に向け、2021年度はモデル化単位を複数の呼気段落に変更し、また同時に、前後の呼気段落を連結することで学習データを擬似的に増やす学習法を試みた。また笑いといった非言語情報の入力制御情報として、音声波形の概形を利用する新たな試みも行なった。
【課題2:ニューラル言語モデルによる噺の自動生成】落語の噺が毎回完全同一では聞き手を楽しませる事は不可能である。そこで、演目名と前置きや落ちといった話の構造等をニューラル言語モデルの入力情報とし、落語の噺を自動生成する枠組みを構築する事が課題2の目標である。2021年度は種々の落語音源の書き起こしを行い、本課題に必要なデータ整備を行なった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り、モデル化単位を複数の呼気段落に変更し、また、非言語情報モデリングの検討を行なった。ニューラル言語モデルのファインチューニングに必要な落語音源の書き起こしデータの準備も完了した。2022年度の研究を予定通り行える状況である。
|
今後の研究の推進方策 |
2022年度は、課題2:ニューラル言語モデルによる噺の自動生成の研究を継続する。
具体的には、演目名と前置きや落ちといった話の構造等をニューラル言語モデルの入力情報とし、落語の噺を自動生成する実験を行う。非線形自己回帰型TransformerモデルであるGPT2を落語書き起こしテキストを元に転移学習させ、さらに話の構造等に関して条件付けさせる事を行う。
同時に、落語音源の書き起こしも継続して行い、データ量を増し、演者や亭号と呼ばれる流派に関しても言語モデルの条件と扱う事も試みる。最終的には、噺の自動生成と音声合成技術とを統合し、演目名のみを指定すれば落語音声が都度異なる形で自動生成される事を狙う。
|
次年度使用額が生じた理由 |
国際会議参加旅費がコロナ禍の影響により不要になったため、旅費が予定より少なかった。次年度に繰越し、成果発表に活用する予定である。
|