• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Annual Research Report

日常会話の韻律モデル構築に向けた話者混在音声の分析基盤

Research Project

Project/Area Number 19H01252
Research InstitutionUtsunomiya University

Principal Investigator

森 大毅  宇都宮大学, 工学部, 准教授 (10302184)

Co-Investigator(Kenkyū-buntansha) 小磯 花絵  大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
前川 喜久雄  大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小野 順貴  東京都立大学, システムデザイン研究科, 教授 (80334259)
永田 智洋  帝京大学, 理工学部, 助教 (80823450)
Project Period (FY) 2019-04-01 – 2022-03-31
KeywordsニューラルF0モデル / 再帰ニューラルネット / 時系列
Outline of Annual Research Achievements

(1) 複数マイクロホン音声を利用した音源分離
日常会話コーパスは、話者やマイクが動く時変伝達系であり、また複数のICレコーダによる非同期録音である点が、従来の音源分離手法と異なり困難な点である。令和2年度は、ブロック分割・同期化による補償に基づく日常会話コーパスの音源分離を検討した。音源分離手法としては、時間周波数マスキング、およびその結果を利用した独立ベクトル分析(IVA)を検討した。日常会話コーパス中の2シーンに対する分離音声の聞き取り実験の結果、時間周波数マスキングが有効であることがわかった。

(2) ニューラルネットによるF0パターンのモデル化とそのF0推定への応用
話者混在音声から目的話者のF0を推定するニューラルネットのアーキテクチャを考案した。学習時には、2話者の音声波形を人工的に加算して作成した話者混在模擬音声および発話区間と話者情報を入力とし、出力される各話者のF0の推定値と正解との誤差が小さくなるようパラメータを更新する。Encoderでは話者混在音声のスペクトルからF0の推定に有用な情報を抽出し、decoderではこの情報に基づいて妥当なF0パターンを推定する。データには録音状態が良好な「日本語話し言葉コーパス」男女344名の話者による模擬講演音声を用いた。現在のネットワークは深層自己回帰モデルではないシンプルな再帰ニューラルネットであるが、分離前に比べ有声/無声誤りとF0のグロスエラーを63%低減でき、F0の分離を高精度に行うことができている。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

フロントエンドとなる音源分離については、単純だが頑健な方法により日常会話コーパスの各話者の音声強調が可能であることがわかった。ニューラルネットによるF0推定は今年度大きな進展があり、その成果をInterspeechに投稿した。ただし、今年度はまだ「日本語話し言葉コーパス」に基づく話者混在模擬音声に対する検討にとどまっているため、研究目的である日常会話コーパスに対する性能評価を行う必要がある。その際には、正解となるF0が不明であるという問題がある。このため、令和3年度は一部のデータに対し人手でアノテーションを行い評価用データを作成する必要がある。

Strategy for Future Research Activity

最終年度は班同士の連携を強め、互いの研究成果を取り込んでプロジェクト全体としての価値を高める。具体的には以下を計画している。コーパス班は、韻律ラベリングの観点から問題となりそうな会話データの選定を行うとともに、モデル班の成果を利用したF0推定結果の評価をフィードバックする。モデル班は、音源分離班の成果を取り入れてニューラルネットへの入力情報を拡充する。また、音源分離班はニューラルネットで推定されたF0を音源分離に利用する。

  • Research Products

    (6 results)

All 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (5 results)

  • [Journal Article] Gaming corpus for studying social screams2020

    • Author(s)
      Hiroki Mori, Yuki Kikuchi
    • Journal Title

      Proc. Interspeech 2020

      Volume: なし Pages: 3132-3135

    • DOI

      10.21437/Interspeech.2020-2553

    • Peer Reviewed / Open Access
  • [Presentation] 韻律を考慮したend-to-end方式に基づく自発音声合成2021

    • Author(s)
      西野 広直,森 大毅
    • Organizer
      日本音響学会2021年春季研究発表会
  • [Presentation] 自発音声に基づく合成音声で対話するシステムがユーザに与える影響の調査2021

    • Author(s)
      飯塚 喬久,森 大毅
    • Organizer
      日本音響学会2021年春季研究発表会
  • [Presentation] データサイエンスが使えるようになるまで2020

    • Author(s)
      前川喜久雄
    • Organizer
      日本語文法学会第21回大会
  • [Presentation] アクセント句頭のFo上昇量はtone間距離で決まる2020

    • Author(s)
      前川喜久雄,森大毅
    • Organizer
      日本音声学会第341回研究例会
  • [Presentation] 録音音声とライブ音声による説明の違いが聞き手反応に及ぼす影響2020

    • Author(s)
      高松屋 友翼, 森 大毅
    • Organizer
      HCGシンポジウム2020

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi