研究課題/領域番号 |
16K12465
|
研究種目 |
挑戦的萌芽研究
|
配分区分 | 基金 |
研究分野 |
知覚情報処理
|
研究機関 | 早稲田大学 |
研究代表者 |
小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)
|
研究協力者 |
俵 直弘
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2016年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 話者照合 / 特徴抽出 / 深層学習 / 特徴表現学習 / 深層ニューラルネットワーク / 音声合成 |
研究成果の概要 |
話者性と音韻性は分離可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.その成果として,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した.発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの重要性を明らかにした.さらに,分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために,識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした.
|
研究成果の学術的意義や社会的意義 |
本研究成果は,発話内容の違いの影響による話者照合性能劣化に対する本質的な解法を与えるもので,音声によるバイオメトリクス認証などアプリケーションとしての期待は高いものの依然として実用のレベルに達していない,数秒程度の短い発話に対する話者照合の性能を抜本的に改善することを可能とする.また,本研究を通じて,これまでほとんど議論されてこなかった「真の話者性」を工学的に明らかにするための新たな研究領域の開拓が期待できる.これは話者認識研究における本質的な問いであり,当該研究分野において日本のプレゼンスを示す好機ともなる.
|