研究課題/領域番号 |
19H01252
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 宇都宮大学 |
研究代表者 |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
研究分担者 |
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小磯 花絵 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
永田 智洋 帝京大学, 理工学部, 助教 (80823450)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
17,810千円 (直接経費: 13,700千円、間接経費: 4,110千円)
2021年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2020年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2019年度: 11,310千円 (直接経費: 8,700千円、間接経費: 2,610千円)
|
キーワード | ニューラルF0モデル / 音源分離 / 話者埋め込み / 韻律 / イントネーション / 話し言葉 / 深層学習 / 再帰ニューラルネット / 時系列 |
研究開始時の研究の概要 |
「日本語日常会話コーパス」の構築は,定量的・包括的な会話の韻律研究を実現する画期的な取り組みであるが,日常場面での収録のため各話者の音声が分離されていない。このため,韻律研究上重要な音声特徴であるF0(基本周波数)が正しく推定できず,このコーパスを利用した韻律研究を推進する上で障害となっている。 本研究は,日常的な生活環境で収録した話者混在音声からF0情報を話者ごとに分離することで,これまで不可能であった韻律の定量的分析を可能とする基盤技術を確立することを目的とする。本研究では,ニューラル音声合成におけるF0パターン生成の考え方をF0推定に応用するアイデアによりこの問題の解決を目指す。
|
研究成果の概要 |
日常的な生活環境で収録した話者混在音声から、声の高さの情報であるF0を話者ごとに推定する技術の確立を目指した研究を実施し、以下に挙げる成果が得られた。 (1) 各話者のICレコーダ収録音から当該話者以外の成分を抑圧し、次段のF0推定の精度を向上させるため、話者やマイクの移動に対処した音源分離を試み、日常会話コーパス中に対する分離音声の聞き取り実験を通じて有効性を確認した。 (2) 指定した話者のF0情報を抽出する深層学習の手法を開発した。話者混在音声を対象とした評価実験の結果、分離前と比べて、F0推定誤りを60%以上削減できることがわかった。
|
研究成果の学術的意義や社会的意義 |
日常場面の中で当事者たち自身の動機や目的によって自然に生じた会話を収録したコーパスでは、各話者の音声が音響的に分離されておらず、本人以外の声も入り込んでしまう。日常会話では複数の話者の発話が頻繁に重なっており,そのような部分では音声の韻律的特徴を正確に分析することができない。本研究の成果は、このような話者混在音声から各話者の韻律情報を分離する技術に道筋を付けるものであり、実環境で収録されたデータに応用することで、音声学・社会科学・心理学・音声情報処理をはじめとする広範な研究分野に貢献することが期待される。
|