研究課題/領域番号 |
19H01252
|
研究機関 | 宇都宮大学 |
研究代表者 |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
研究分担者 |
小磯 花絵 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小野 順貴 首都大学東京, システムデザイン研究科, 教授 (80334259)
永田 智洋 宇都宮大学, 地域創生推進機構, 研究員 (80823450)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | ニューラルF0モデル / 再帰ニューラルネット / 時系列 |
研究実績の概要 |
当初研究計画では、平成31年度(令和元年度)に(1-1)複数マイクロホン音声を利用した音源分離、(1-2)深層自己回帰モデルによるF0パターンのモデル化とそのF0推定への応用、を並行して進めるとなっていた。 (1-1)については、ブラインド同期+ブラインド音源分離で、日常会話コーパス収録音声がどの程度分離できるかの予備検討を進めている段階である。 (1-2)については、まず他の話者や背景雑音の影響がない音声を対象に、ニューラルF0モデルの有効性を検証した。自発音声コーパスとしては日本語話し言葉コーパス(CSJ)を使用した。最終的にはF0候補マップや音声強調済スペクトログラムを入力として利用する計画であるが、現段階ではまずニューラルF0モデルの持つ表現力を検証するため、最小限の情報からどの程度妥当なF0パターンを生成できるかを確かめた。具体的には、アクセント句ならびにイントネーション句の開始位置を示す2値の符号だけを入力とした。モデルとしては、単純な再帰ニューラルネット(LSTM)、および直前フレームの推定F0を再帰層にフィードバックする深層自己回帰モデル(DAR)の2種を比較した。視察による出力F0軌跡の評価の結果、いずれのモデルでも1アクセント句あたり1つの「への字」パターンが再現され、さらにイントネーション句内のアクセント句間でF0のピークが下降するダウンステップ現象が再現されていた。実音声のF0との定量的比較においては、相関係数がLSTMで0.37, DARが0.40であり、ややDARの方が予測性能が高いものの、入力される情報の乏しさのため再現性は低くなっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
(1) ブラインド音源分離班に対する研究総括のコミットが不十分で、進捗状況や問題の共有が進まなかった。 (2) ニューラルF0モデルの本格利用のためのデータ整備を十分に進めることができず、予備的な検討の段階にとどまった。
|
今後の研究の推進方策 |
今般、オンライン会議の普及により、研究機関間の議論で時間や場所の制約の影響が小さくなった。2020年度以降はオンライン会議を中心として情報交換を密にすることで、進捗状況の共有を図り、計画の達成を目指す。
|