研究課題/領域番号 |
19H01252
|
研究機関 | 宇都宮大学 |
研究代表者 |
森 大毅 宇都宮大学, 工学部, 准教授 (10302184)
|
研究分担者 |
小磯 花絵 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (30312200)
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 音声言語研究領域, 教授 (20173693)
小野 順貴 東京都立大学, システムデザイン研究科, 教授 (80334259)
永田 智洋 帝京大学, 理工学部, 助教 (80823450)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | ニューラルF0モデル / 再帰ニューラルネット / 時系列 |
研究実績の概要 |
(1) 複数マイクロホン音声を利用した音源分離 日常会話コーパスは、話者やマイクが動く時変伝達系であり、また複数のICレコーダによる非同期録音である点が、従来の音源分離手法と異なり困難な点である。令和2年度は、ブロック分割・同期化による補償に基づく日常会話コーパスの音源分離を検討した。音源分離手法としては、時間周波数マスキング、およびその結果を利用した独立ベクトル分析(IVA)を検討した。日常会話コーパス中の2シーンに対する分離音声の聞き取り実験の結果、時間周波数マスキングが有効であることがわかった。
(2) ニューラルネットによるF0パターンのモデル化とそのF0推定への応用 話者混在音声から目的話者のF0を推定するニューラルネットのアーキテクチャを考案した。学習時には、2話者の音声波形を人工的に加算して作成した話者混在模擬音声および発話区間と話者情報を入力とし、出力される各話者のF0の推定値と正解との誤差が小さくなるようパラメータを更新する。Encoderでは話者混在音声のスペクトルからF0の推定に有用な情報を抽出し、decoderではこの情報に基づいて妥当なF0パターンを推定する。データには録音状態が良好な「日本語話し言葉コーパス」男女344名の話者による模擬講演音声を用いた。現在のネットワークは深層自己回帰モデルではないシンプルな再帰ニューラルネットであるが、分離前に比べ有声/無声誤りとF0のグロスエラーを63%低減でき、F0の分離を高精度に行うことができている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
フロントエンドとなる音源分離については、単純だが頑健な方法により日常会話コーパスの各話者の音声強調が可能であることがわかった。ニューラルネットによるF0推定は今年度大きな進展があり、その成果をInterspeechに投稿した。ただし、今年度はまだ「日本語話し言葉コーパス」に基づく話者混在模擬音声に対する検討にとどまっているため、研究目的である日常会話コーパスに対する性能評価を行う必要がある。その際には、正解となるF0が不明であるという問題がある。このため、令和3年度は一部のデータに対し人手でアノテーションを行い評価用データを作成する必要がある。
|
今後の研究の推進方策 |
最終年度は班同士の連携を強め、互いの研究成果を取り込んでプロジェクト全体としての価値を高める。具体的には以下を計画している。コーパス班は、韻律ラベリングの観点から問題となりそうな会話データの選定を行うとともに、モデル班の成果を利用したF0推定結果の評価をフィードバックする。モデル班は、音源分離班の成果を取り入れてニューラルネットへの入力情報を拡充する。また、音源分離班はニューラルネットで推定されたF0を音源分離に利用する。
|