• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Annual Research Report

日常会話の韻律モデル構築に向けた話者混在音声の分析基盤

Research Project

Project/Area Number 19H01252
Research InstitutionUtsunomiya University

Principal Investigator

森 大毅  宇都宮大学, 工学部, 准教授 (10302184)

Co-Investigator(Kenkyū-buntansha) 小磯 花絵  大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
前川 喜久雄  大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小野 順貴  首都大学東京, システムデザイン研究科, 教授 (80334259)
永田 智洋  宇都宮大学, 地域創生推進機構, 研究員 (80823450)
Project Period (FY) 2019-04-01 – 2022-03-31
KeywordsニューラルF0モデル / 再帰ニューラルネット / 時系列
Outline of Annual Research Achievements

当初研究計画では、平成31年度(令和元年度)に(1-1)複数マイクロホン音声を利用した音源分離、(1-2)深層自己回帰モデルによるF0パターンのモデル化とそのF0推定への応用、を並行して進めるとなっていた。
(1-1)については、ブラインド同期+ブラインド音源分離で、日常会話コーパス収録音声がどの程度分離できるかの予備検討を進めている段階である。
(1-2)については、まず他の話者や背景雑音の影響がない音声を対象に、ニューラルF0モデルの有効性を検証した。自発音声コーパスとしては日本語話し言葉コーパス(CSJ)を使用した。最終的にはF0候補マップや音声強調済スペクトログラムを入力として利用する計画であるが、現段階ではまずニューラルF0モデルの持つ表現力を検証するため、最小限の情報からどの程度妥当なF0パターンを生成できるかを確かめた。具体的には、アクセント句ならびにイントネーション句の開始位置を示す2値の符号だけを入力とした。モデルとしては、単純な再帰ニューラルネット(LSTM)、および直前フレームの推定F0を再帰層にフィードバックする深層自己回帰モデル(DAR)の2種を比較した。視察による出力F0軌跡の評価の結果、いずれのモデルでも1アクセント句あたり1つの「への字」パターンが再現され、さらにイントネーション句内のアクセント句間でF0のピークが下降するダウンステップ現象が再現されていた。実音声のF0との定量的比較においては、相関係数がLSTMで0.37, DARが0.40であり、ややDARの方が予測性能が高いものの、入力される情報の乏しさのため再現性は低くなっている。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

(1) ブラインド音源分離班に対する研究総括のコミットが不十分で、進捗状況や問題の共有が進まなかった。
(2) ニューラルF0モデルの本格利用のためのデータ整備を十分に進めることができず、予備的な検討の段階にとどまった。

Strategy for Future Research Activity

今般、オンライン会議の普及により、研究機関間の議論で時間や場所の制約の影響が小さくなった。2020年度以降はオンライン会議を中心として情報交換を密にすることで、進捗状況の共有を図り、計画の達成を目指す。

  • Research Products

    (7 results)

All 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results)

  • [Journal Article] Effectiveness of speech mode adaptation for improving dialogue speech synthesis2019

    • Author(s)
      Kazuki Kaya, Hiroki Mori
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E102-D Pages: 2064-2066

    • DOI

      10.1587/transinf.2019EDL8024

    • Peer Reviewed
  • [Journal Article] Conversational and social laughter synthesis with WaveNet2019

    • Author(s)
      Hiroki Mori, Tomohiro Nagata, Yoshiko Arimoto
    • Journal Title

      Proc. Interspeech 2019

      Volume: - Pages: 520-523

    • DOI

      10.21437/Interspeech.2019-2131

    • Peer Reviewed
  • [Presentation] 原稿の有無が説明者の発話と被説明者の反応に与える影響の分析2020

    • Author(s)
      高松屋 友翼,森 大毅
    • Organizer
      日本音響学会2020年春季研究発表会
  • [Presentation] 大規模日常会話コーパスにおけるイントネーションラベリング2020

    • Author(s)
      菊池 英明, 山田 高明, 小磯 花絵
    • Organizer
      日本音響学会2020年春季研究発表会
  • [Presentation] 『日本語日常会話コーパス』への韻律ラベリング -ラベリングの設計と日常会話の韻律の特徴-2020

    • Author(s)
      小磯 花絵, 菊池 英明, 山田 高明
    • Organizer
      人工知能学会第88回SLUD研究会
  • [Presentation] 感情表出系感動詞の鼻音化に関する種々の分析2019

    • Author(s)
      高岸 勇斗,森 大毅
    • Organizer
      日本音響学会2019年秋季研究発表会
  • [Presentation] 自発音声に対するニューラルF0モデリングの可能性2019

    • Author(s)
      永田 智洋,森 大毅
    • Organizer
      日本音響学会2019年秋季研究発表会

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi