2018 年度研究成果報告書

人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

研究課題

PDF

研究課題/領域番号	16K12465
研究種目	挑戦的萌芽研究
配分区分	基金
研究分野	知覚情報処理
研究機関	早稲田大学
研究代表者	小川哲司早稲田大学, 理工学術院, 准教授 (70386598)
研究協力者	俵直弘
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	話者照合 / 特徴抽出 / 深層学習
研究成果の概要	話者性と音韻性は分離可能であると仮定し，音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた．その成果として，音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した．発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し，特に識別の直前にプーリングを行うことの重要性を明らかにした．さらに，分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために，識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした．
自由記述の分野	音声情報処理，パターン認識
研究成果の学術的意義や社会的意義	本研究成果は，発話内容の違いの影響による話者照合性能劣化に対する本質的な解法を与えるもので，音声によるバイオメトリクス認証などアプリケーションとしての期待は高いものの依然として実用のレベルに達していない，数秒程度の短い発話に対する話者照合の性能を抜本的に改善することを可能とする．また，本研究を通じて，これまでほとんど議論されてこなかった「真の話者性」を工学的に明らかにするための新たな研究領域の開拓が期待できる．これは話者認識研究における本質的な問いであり，当該研究分野において日本のプレゼンスを示す好機ともなる．