2021 年度研究成果報告書

日常会話の韻律モデル構築に向けた話者混在音声の分析基盤

研究課題

PDF

研究課題/領域番号	19H01252
研究種目	基盤研究(B)
配分区分	補助金
応募区分	一般
審査区分	小区分02060:言語学関連
研究機関	宇都宮大学
研究代表者	森大毅宇都宮大学, 工学部, 准教授 (10302184)
研究分担者	前川喜久雄大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693) 小磯花絵大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200) 小野順貴東京都立大学, システムデザイン研究科, 教授 (80334259) 永田智洋帝京大学, 理工学部, 助教 (80823450)
研究期間 (年度)	2019-04-01 – 2022-03-31
キーワード	ニューラルF0モデル / 音源分離 / 話者埋め込み
研究成果の概要	日常的な生活環境で収録した話者混在音声から、声の高さの情報であるF0を話者ごとに推定する技術の確立を目指した研究を実施し、以下に挙げる成果が得られた。 (1) 各話者のICレコーダ収録音から当該話者以外の成分を抑圧し、次段のF0推定の精度を向上させるため、話者やマイクの移動に対処した音源分離を試み、日常会話コーパス中に対する分離音声の聞き取り実験を通じて有効性を確認した。 (2) 指定した話者のF0情報を抽出する深層学習の手法を開発した。話者混在音声を対象とした評価実験の結果、分離前と比べて、F0推定誤りを60%以上削減できることがわかった。
自由記述の分野	音声言語情報処理
研究成果の学術的意義や社会的意義	日常場面の中で当事者たち自身の動機や目的によって自然に生じた会話を収録したコーパスでは、各話者の音声が音響的に分離されておらず、本人以外の声も入り込んでしまう。日常会話では複数の話者の発話が頻繁に重なっており，そのような部分では音声の韻律的特徴を正確に分析することができない。本研究の成果は、このような話者混在音声から各話者の韻律情報を分離する技術に道筋を付けるものであり、実環境で収録されたデータに応用することで、音声学・社会科学・心理学・音声情報処理をはじめとする広範な研究分野に貢献することが期待される。