• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

研究課題

研究課題/領域番号 16K12465
研究種目

挑戦的萌芽研究

配分区分基金
研究分野 知覚情報処理
研究機関早稲田大学

研究代表者

小川 哲司  早稲田大学, 理工学術院, 准教授 (70386598)

研究協力者 俵 直弘  
研究期間 (年度) 2016-04-01 – 2019-03-31
研究課題ステータス 完了 (2018年度)
配分額 *注記
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2018年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2017年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2016年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
キーワード話者照合 / 特徴抽出 / 深層学習 / 特徴表現学習 / 深層ニューラルネットワーク / 音声合成
研究成果の概要

話者性と音韻性は分離可能であると仮定し,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.その成果として,音響特徴量から音韻性と話者性をフレーム単位で分離・抽出するディスエンタングリング・ニューラルネットワークの構築に成功した.発話単位で表出する話者情報をフレーム単位の特徴量に反映させるために統計的プーリングを導入し,特に識別の直前にプーリングを行うことの重要性を明らかにした.さらに,分離・抽出された各特徴量が各々話者および音韻の情報のみを含むように特徴抽出器を最適化するために,識別器のエントロピーに基づく損失を新たに導入しその有効性を明らかにした.

研究成果の学術的意義や社会的意義

本研究成果は,発話内容の違いの影響による話者照合性能劣化に対する本質的な解法を与えるもので,音声によるバイオメトリクス認証などアプリケーションとしての期待は高いものの依然として実用のレベルに達していない,数秒程度の短い発話に対する話者照合の性能を抜本的に改善することを可能とする.また,本研究を通じて,これまでほとんど議論されてこなかった「真の話者性」を工学的に明らかにするための新たな研究領域の開拓が期待できる.これは話者認識研究における本質的な問いであり,当該研究分野において日本のプレゼンスを示す好機ともなる.

報告書

(4件)
  • 2018 実績報告書   研究成果報告書 ( PDF )
  • 2017 実施状況報告書
  • 2016 実施状況報告書
  • 研究成果

    (16件)

すべて 2019 2018 2017 2016

すべて 雑誌論文 (6件) (うち国際共著 1件、 査読あり 6件、 オープンアクセス 1件) 学会発表 (8件) 図書 (2件)

  • [雑誌論文] Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations2018

    • 著者名/発表者名
      Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi
    • 雑誌名

      Proc. ICASSP2018

      巻: - ページ: 6084-6088

    • 関連する報告書
      2017 実施状況報告書
    • 査読あり
  • [雑誌論文] Speaker invariant feature extraction for zero-resource languages with adversarial training2018

    • 著者名/発表者名
      Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa
    • 雑誌名

      Proc. ICASSP2018

      巻: - ページ: 2381-2385

    • 関連する報告書
      2017 実施状況報告書
    • 査読あり
  • [雑誌論文] Exploiting end of sentences and speaker alternations in language modeling for multiparty conversations2017

    • 著者名/発表者名
      Ashikawa Hiroto、Tawara Naohiro、Ogawa Atsunori、Iwata Tomoharu、Kobayashi Tetsunori、Ogawa Tetsuji
    • 雑誌名

      Proc. APSIPA2017

      巻: - ページ: 1263-1267

    • DOI

      10.1109/apsipa.2017.8282217

    • 関連する報告書
      2017 実施状況報告書
    • 査読あり
  • [雑誌論文] Associative memory model-based linear filtering and its application to tandem connectionist blind source separation2016

    • 著者名/発表者名
      Motoi Omachi, Tetsuji Ogawa, Tetsunori Kobayashi
    • 雑誌名

      IEEE Trans. ASLP

      巻: 25 号: 3 ページ: 637-650

    • DOI

      10.1109/taslp.2017.2653941

    • 関連する報告書
      2017 実施状況報告書 2016 実施状況報告書
    • 査読あり
  • [雑誌論文] Nested Gibbs sampling for mixture-of-mixture model and its application to speaker clustering2016

    • 著者名/発表者名
      Naohiro Tawara, Tetsuji Ogawa, Shinji Watanabe, Tetsunori Kobayashi
    • 雑誌名

      APSIPA Trans. Signal & Info. Process.

      巻: 5 号: 1

    • DOI

      10.1017/atsip.2016.15

    • 関連する報告書
      2016 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] A new efficient measure for accuracy prediction and its application to multistream-based unsupervised adaptation2016

    • 著者名/発表者名
      Tetsuji Ogawa, Harish Mallidi, Emmanuel Dupoux, Jordan Cohen, Naomi Feldman, Hynek Hermansky
    • 雑誌名

      Proc. ICPR2016

      巻: - ページ: 2223-2228

    • 関連する報告書
      2016 実施状況報告書
    • 査読あり / 国際共著
  • [学会発表] 音韻・話者特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて2019

    • 著者名/発表者名
      俵直弘,小林哲則,小川哲司
    • 学会等名
      日本音響学会春季研究発表会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] ゼロリソース言語音声認識のための発話者の違いに頑健な特徴抽出2019

    • 著者名/発表者名
      樋口陽祐,俵直弘,小川哲司,小林哲則
    • 学会等名
      日本音響学会春季研究発表会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] DPGMMと敵対的学習に基づく話者の違いに頑健な特徴抽出とゼロリソース音声認識での評価2019

    • 著者名/発表者名
      樋口陽祐,俵直弘,小林哲則,小川哲司
    • 学会等名
      2019年7月度音声研究会
    • 関連する報告書
      2018 実績報告書
  • [学会発表] 敵対的学習に基づく話者特徴抽出2018

    • 著者名/発表者名
      俵直弘,土屋平,小川哲司,小林哲則
    • 学会等名
      2018年日本音響学会春季研究発表会
    • 関連する報告書
      2017 実施状況報告書
  • [学会発表] 話者正規化における言語非依存性とゼロリソース音声認識における効果2018

    • 著者名/発表者名
      島田拓也,俵直弘,小川哲司,小林哲則
    • 学会等名
      2018年日本音響学会春季研究発表会
    • 関連する報告書
      2017 実施状況報告書
  • [学会発表] 敵対的学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価2018

    • 著者名/発表者名
      土屋平,俵直弘,小川哲司,小林哲則
    • 学会等名
      2018年日本音響学会春季研究発表会
    • 関連する報告書
      2017 実施状況報告書
  • [学会発表] ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル2017

    • 著者名/発表者名
      森岡幹,俵直弘,小川哲司,小川厚徳,岩田具治,小林哲則
    • 学会等名
      2017年日本音響学会秋季研究発表会
    • 関連する報告書
      2017 実施状況報告書
  • [学会発表] 複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性2017

    • 著者名/発表者名
      芦川博人,俵直弘,小川厚徳,岩田具治,小林哲則,小川哲司
    • 学会等名
      2017年日本音響学会秋季研究発表会
    • 関連する報告書
      2017 実施状況報告書
  • [図書] 人工知能学大辞典, 人工知能学会(編),話者認識・話者照合2017

    • 著者名/発表者名
      小川哲司
    • 総ページ数
      2
    • 出版者
      共立出版
    • 関連する報告書
      2017 実施状況報告書
  • [図書] 話者ダイアライゼーション(音響学会編・音響キーワードブック)2016

    • 著者名/発表者名
      小川哲司
    • 総ページ数
      2
    • 出版者
      コロナ社
    • 関連する報告書
      2016 実施状況報告書

URL: 

公開日: 2016-04-21   更新日: 2020-03-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi