2018 Fiscal Year Annual Research Report
A study on speaker-specific information extraction in consideration of vocalization mechanism and its application to speaker verification
Project/Area Number |
16K12465
|
Research Institution | Waseda University |
Principal Investigator |
小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 話者照合 / 特徴表現学習 / 深層ニューラルネットワーク |
Outline of Annual Research Achievements |
音声信号が持つ個人性(話者特徴)を発話内容(音韻特徴)の影響を受けずに抽出する技術を開発し,発話内容の違いが原因で実用化の域に達していない短い発話に対する話者照合の性能を抜本的に改善することを目指す.そのために,(WP1)人の発声機構に着目し,発話内容の情報が混入しない声帯からの信号を用いて話者特徴を抽出する技術,(WP2)深層学習を用いて音響的な情報から話者を認識するための情報と発話内容を認識するための情報を分離する技術,(WP3)音声認識と音声合成技術を駆使して話者特徴に含まれる発話内容の影響を直接的に取り除く技術について検討を行った.この過程で,敵対的学習に基づく深層ニューラルネットワークが音韻の影響を受けにくい話者特徴抽出において有望であることが明らかになり,研究期間全体および平成30年度においても(WP2)に重きを置きながら検討を行った. (WP2)では,話者性と音韻性は分離することが可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.本年度は,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリングニューラルネットワークを導入した.このことで,音韻の変動に対して不変な特徴量が得られることが期待できる.実験では,発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの有効性を明らかにした.さらに,分離・抽出された各特徴量がそれぞれ所望の情報のみを含むように特徴抽出器を最適化するための損失関数として,識別器のエントロピーを用いる損失を導入しその有効性も明らかにした. このように,提案する特徴表現の学習法は音素非依存な話者表現をフレーム単位で得るために極めて有効であると言え,研究期間全体として概ね順調に推移したと言える.
|