• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

研究課題

研究課題/領域番号 16K12465
研究機関早稲田大学

研究代表者

小川 哲司  早稲田大学, 理工学術院, 准教授 (70386598)

研究期間 (年度) 2016-04-01 – 2019-03-31
キーワード話者照合 / 特徴表現学習 / 深層ニューラルネットワーク
研究実績の概要

音声信号が持つ個人性(話者特徴)を発話内容(音韻特徴)の影響を受けずに抽出する技術を開発し,発話内容の違いが原因で実用化の域に達していない短い発話に対する話者照合の性能を抜本的に改善することを目指す.そのために,(WP1)人の発声機構に着目し,発話内容の情報が混入しない声帯からの信号を用いて話者特徴を抽出する技術,(WP2)深層学習を用いて音響的な情報から話者を認識するための情報と発話内容を認識するための情報を分離する技術,(WP3)音声認識と音声合成技術を駆使して話者特徴に含まれる発話内容の影響を直接的に取り除く技術について検討を行った.この過程で,敵対的学習に基づく深層ニューラルネットワークが音韻の影響を受けにくい話者特徴抽出において有望であることが明らかになり,研究期間全体および平成30年度においても(WP2)に重きを置きながら検討を行った.
(WP2)では,話者性と音韻性は分離することが可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.本年度は,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリングニューラルネットワークを導入した.このことで,音韻の変動に対して不変な特徴量が得られることが期待できる.実験では,発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの有効性を明らかにした.さらに,分離・抽出された各特徴量がそれぞれ所望の情報のみを含むように特徴抽出器を最適化するための損失関数として,識別器のエントロピーを用いる損失を導入しその有効性も明らかにした.
このように,提案する特徴表現の学習法は音素非依存な話者表現をフレーム単位で得るために極めて有効であると言え,研究期間全体として概ね順調に推移したと言える.

  • 研究成果

    (3件)

すべて 2019

すべて 学会発表 (3件)

  • [学会発表] 音韻・話者特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて2019

    • 著者名/発表者名
      俵直弘,小林哲則,小川哲司
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出2019

    • 著者名/発表者名
      樋口陽祐,俵直弘,小川哲司,小林哲則
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価2019

    • 著者名/発表者名
      樋口陽祐,俵直弘,小林哲則,小川哲司
    • 学会等名
      2019年7月度音声研究会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi