Project/Area Number |
19H01252
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Utsunomiya University |
Principal Investigator |
Mori Hiroki 宇都宮大学, 工学部, 准教授 (10302184)
|
Co-Investigator(Kenkyū-buntansha) |
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小磯 花絵 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
永田 智洋 帝京大学, 理工学部, 助教 (80823450)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥17,810,000 (Direct Cost: ¥13,700,000、Indirect Cost: ¥4,110,000)
Fiscal Year 2021: ¥3,120,000 (Direct Cost: ¥2,400,000、Indirect Cost: ¥720,000)
Fiscal Year 2020: ¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2019: ¥11,310,000 (Direct Cost: ¥8,700,000、Indirect Cost: ¥2,610,000)
|
Keywords | ニューラルF0モデル / 音源分離 / 話者埋め込み / 韻律 / イントネーション / 話し言葉 / 深層学習 / 再帰ニューラルネット / 時系列 |
Outline of Research at the Start |
「日本語日常会話コーパス」の構築は,定量的・包括的な会話の韻律研究を実現する画期的な取り組みであるが,日常場面での収録のため各話者の音声が分離されていない。このため,韻律研究上重要な音声特徴であるF0(基本周波数)が正しく推定できず,このコーパスを利用した韻律研究を推進する上で障害となっている。 本研究は,日常的な生活環境で収録した話者混在音声からF0情報を話者ごとに分離することで,これまで不可能であった韻律の定量的分析を可能とする基盤技術を確立することを目的とする。本研究では,ニューラル音声合成におけるF0パターン生成の考え方をF0推定に応用するアイデアによりこの問題の解決を目指す。
|
Outline of Final Research Achievements |
This project aimed to establish a fundamental technology to estimates pitch independently for each speaker given overlapping speech recorded in everyday circumstances, and achieved the following: (1) Developed a speech separation that takes the movement of speakers or microphones into account. This suppresses components of speakers other than the target, and is expected to improve the accuracy of subsequent pitch estimation. A listening test for the Corpus of Everyday Japanese Conversation revealed its effectiveness. (2) Developed a novel deep learning method for extracting pitch information of specified speaker. Results of evaluation experiments on overlapping speech demonstrated that the proposed method could reduce the gross pitch error by than 60% compared to the case for which the proposed method was not applied.
|
Academic Significance and Societal Importance of the Research Achievements |
日常場面の中で当事者たち自身の動機や目的によって自然に生じた会話を収録したコーパスでは、各話者の音声が音響的に分離されておらず、本人以外の声も入り込んでしまう。日常会話では複数の話者の発話が頻繁に重なっており,そのような部分では音声の韻律的特徴を正確に分析することができない。本研究の成果は、このような話者混在音声から各話者の韻律情報を分離する技術に道筋を付けるものであり、実環境で収録されたデータに応用することで、音声学・社会科学・心理学・音声情報処理をはじめとする広範な研究分野に貢献することが期待される。
|