研究課題/領域番号 |
19H01252
|
研究機関 | 宇都宮大学 |
研究代表者 |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
研究分担者 |
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小磯 花絵 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
永田 智洋 帝京大学, 理工学部, 助教 (80823450)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | ニューラルF0モデル / 音源分離 / 話者埋め込み |
研究実績の概要 |
(1) 模擬重畳音声を利用したF0パターン分離モデルの有効性検証 前年度に考案した話者混在音声から目的話者のF0を推定するニューラルネットを「日本語話し言葉コーパス」男女20名の話者の音声を用いた模擬重畳音声に適用し、分離前に比ベ有声/無声誤りを72%、F0のグロスエラーを88%低減でき、F0の分離を高精度に行うことが可能であることを示した。 (2) 未知話者に対応したF0パターン分離インタフェースの開発 「日本語話し言葉コーパス」で学習したモデルを別のデータに適用するにあたっては、ターゲット話者を指定するための埋め込みベクトルをいかに推定するかが課題となる。そこで、F0パターンの推定結果を視察しながらリアルタイムに話者性を調整するインタフェースを開発した。 (3) F0パターン分離モデルの日常会話への適用 「日本語話し言葉コーパス」の模擬重畳音声を用いて学習したモデルを用いて、「日本語日常会話コーパス」の中央ICレコーダ音声から各話者のF0を分離する検討を行った。未知の話者に対する話者埋め込みの推定については、(2)の手動調整、および埋め込みの再学習による方法を検討したが、いずれの方法によっても、模擬重畳音声の場合とは異なり十分な性能が得られなかった。以下に考えられる原因を挙げる。(i)模擬重畳音声と異なり実環境では混合比がまちまちで、特にレベルが小さい話者についてはモデルとのミスマッチが大きい。(ii)実音声は収録環境がまちまちで、モデルとのミスマッチの原因になっている。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|