2017 年度実施状況報告書

人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

研究課題

研究課題/領域番号	16K12465
研究機関	早稲田大学
研究代表者	小川哲司早稲田大学, 理工学術院, 准教授 (70386598)
研究期間 (年度)	2016-04-01 – 2019-03-31
キーワード	話者照合 / 特徴抽出 / 深層学習
研究実績の概要	音声信号が持つ個人性（話者特徴）を発話内容（音韻特徴）の影響を受けずに抽出する技術を開発し，発話内容の違いの影響が原因で実用化の域に達していない短い発話に対する話者照合の性能を抜本的に改善することを目指す．そのために，（WP1）人の発声機構に着目し，発話内容の情報が混入しない声帯からの信号を用いて話者特徴を抽出する技術，（WP2）深層学習を用いて音響的な情報から話者を認識するための情報と発話内容を認識するための情報を分離する技術，（WP3）音声認識と音声合成技術を駆使して話者特徴に含まれる発話内容の影響を直接的に取り除く技術を確立する．平成29年度はそのうち，主に（WP2）に焦点を当てて研究を行った．（WP2）では，従来の音韻情報を暗に用いるアプローチとは反対に，話者性と音韻性は分離して抽出することが可能であると仮定する．その上で，音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた．ここでは，フレーム単位で情報を圧縮するオートエンコーダを導入し，その中間層の出力に対して音素認識率が低下するような敵対的学習を導入した．このことで，音韻の変動に対して不変な特徴量が得られることが期待できる．実験では，得られた音韻独立な特徴量を用いて算出したi-vector が，元の音響空間で構築したi-vector やDNN 音響モデルに基づくボトルネック特徴量よりも高い精度の話者照合性能を達成できることを明らかにした．この傾向は発話長が短いほどより顕著であることから，提案する敵対的学習法は音素非依存な話者表現をフレーム単位で得るために極めて有効であると言える．本成果は，2018年日本音響学会春季研究発表会およびICASSP2018にて発表済みである．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由平成29年度の実施においても，引き続き，（WP1）話者固有の情報を利用する技術，（WP2）話者固有の情報を抽出する技術，（WP3）発話内容の違いを抑圧する技術の各項目において検討を進める計画であった．平成28年度に実施した各ワークパッケージに関する予備検討の結果および平成29年度の研究の過程で，敵対的学習に基づく深層ニューラルネットワークが音韻の影響を受けにくい話者特徴抽出において有望であることが明らかになり，本年度は（WP2）に重きを置きながら検討を行った．ここでは，音韻情報と話者情報を厳密に分離するのではなく，音響特徴量を1) 音韻の識別に寄与する情報，2) 話者の識別に寄与する情報，3) 両者が混在する情報に分離した上で，話者の識別に寄与する情報のみを話者特徴として利用すべき，という新たな着想を得た．平成29年度は，このアナロジーに基づいたニューラルネットワークの構造，およびその決定アルゴリズムに関する知見を得た．本研究の（WP3）は，音声合成技術をツールとして利用するという立場を採っているが，近年提案されたWaveNetは音声合成に関わる多くの課題において著しい性能改善を与えている．また，話者照合は数秒という継続長の情報が必要になるが，WaveNetで利用されるdilated causal CNNはこのような長時間情報の取り扱いを効果的にモデル化する技術とも捉えることができ，話者情報の抽出にこそ有用な技術と言える．平成29年度は，（WP2）および（WP3）に関連し，補助情報を用いたdilated causal CNNに基づくオートエンコーダについて検討を行い，長時間情報の取り扱いを可能とする構造に関する知見を得た．以上の通り，音韻と話者情報の分離という目的に向けて有望な方式を提案し，成果も出始めているという点で，おおむね順調に推移していると言える．
今後の研究の推進方策	平成30年度は，引き続き，3つのワークパッケージのうち最も有望である（WP2）に重きを置いて検討を行う予定である．（WP2）では，より大規模なコーパスを用いて提案ネットワークを構築することを試みる．また，平成29年度は TIMIT で提供された標準的な音素セットに対し敵対的学習を適用したが，平成30年度は，音素セットの選び方が提案アプローチに与える影響の調査も行う．一般的に，発話者の情報を信頼性高く抽出するためには，数秒～数10秒といった長時間の情報を用いることが望ましい．そこで，長時間情報を効果的に利用可能なネットワークである dilated causal CNN を特徴抽出部（エンコーダ）に利用した end-to-end 話者照合手法に対して提案アプローチを適用することを試みる．さらに，（WP1）の検討項目である，人の発声機構を考慮した話者固有の情報（声帯情報と見なされる線形予測残差スペクトル）は，上記で検討中の音韻の影響を受けにくい話者特徴抽出用ネットワークの参照信号として利用することを試みる．
次年度使用額が生じた理由	出張および消耗品購入に関わる経費が当初の予定と異なったため．翌年度の出張および消耗品(GPUなど)の購入費用の一部として使用する予定である．

研究成果
(10件)

すべて 2018 2017

すべて雑誌論文 (4件) (うち査読あり 4件) 学会発表 (5件) 図書 (1件)

[雑誌論文] Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations2018
- 著者名/発表者名
  Tsuyoshi Morioka, Naohiro Tawara, Tetsuji Ogawa, Atsunori Ogawa, Tomoharu Iwata, Tetsunori Kobayashi
- 雑誌名
  
  Proc. ICASSP2018
  
  巻: - ページ: 6084～6088
- 査読あり
[雑誌論文] Speaker invariant feature extraction for zero-resource languages with adversarial training2018
- 著者名/発表者名
  Taira Tsuchiya, Naohiro Tawara, Tetsunori Kobayashi, Tetsuji Ogawa
- 雑誌名
  
  Proc. ICASSP2018
  
  巻: - ページ: 2381～2385
- 査読あり
[雑誌論文] Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation2017
- 著者名/発表者名
  Omachi Motoi、Ogawa Tetsuji、Kobayashi Tetsunori
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 25 ページ: 637～650
- DOI
  10.1109/TASLP.2017.2653941
- 査読あり
[雑誌論文] Exploiting end of sentences and speaker alternations in language modeling for multiparty conversations2017
- 著者名/発表者名
  Ashikawa Hiroto、Tawara Naohiro、Ogawa Atsunori、Iwata Tomoharu、Kobayashi Tetsunori、Ogawa Tetsuji
- 雑誌名
  
  Proc. APSIPA2017
  
  巻: - ページ: -
- DOI
  10.1109/APSIPA.2017.8282217
- 査読あり
[学会発表] 敵対的学習に基づく話者特徴抽出2018
- 著者名/発表者名
  俵直弘，土屋平，小川哲司，小林哲則
- 学会等名
  2018年日本音響学会春季研究発表会
[学会発表] 話者正規化における言語非依存性とゼロリソース音声認識における効果2018
- 著者名/発表者名
  島田拓也，俵直弘，小川哲司，小林哲則
- 学会等名
  2018年日本音響学会春季研究発表会
[学会発表] 敵対的学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価2018
- 著者名/発表者名
  土屋平，俵直弘，小川哲司，小林哲則
- 学会等名
  2018年日本音響学会春季研究発表会
[学会発表] ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル2017
- 著者名/発表者名
  森岡幹，俵直弘，小川哲司，小川厚徳，岩田具治，小林哲則
- 学会等名
  2017年日本音響学会秋季研究発表会
[学会発表] 複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性2017
- 著者名/発表者名
  芦川博人，俵直弘，小川厚徳，岩田具治，小林哲則，小川哲司
- 学会等名
  2017年日本音響学会秋季研究発表会
[図書] 人工知能学大辞典, 人工知能学会（編），話者認識・話者照合2017
- 著者名/発表者名
  小川哲司
- 総ページ数
  2
- 出版者
  共立出版

2017 年度 実施状況報告書

人の発声機構を考慮した話者固有の情報の抽出と話者照合への応用に関する研究

研究代表者

小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Language model domain adaptation via recurrent neural network with domain-shared and domain-specific representations2018

著者名/発表者名

雑誌名

[雑誌論文] Speaker invariant feature extraction for zero-resource languages with adversarial training2018

著者名/発表者名

雑誌名

[雑誌論文] Associative Memory Model-Based Linear Filtering and Its Application to Tandem Connectionist Blind Source Separation2017

著者名/発表者名

雑誌名

DOI

[雑誌論文] Exploiting end of sentences and speaker alternations in language modeling for multiparty conversations2017

著者名/発表者名

雑誌名

DOI

[学会発表] 敵対的学習に基づく話者特徴抽出2018

著者名/発表者名

学会等名

[学会発表] 話者正規化における言語非依存性とゼロリソース音声認識における効果2018

著者名/発表者名

学会等名

[学会発表] 敵対的学習を用いた話者の違いに頑健な特徴抽出とゼロリソース音素識別による評価2018

著者名/発表者名

学会等名

[学会発表] ドメイン依存・非依存の内部表現を有する再帰型ニューラルネットワーク言語モデル2017

著者名/発表者名

学会等名

[学会発表] 複数人対話を対象としたRNN言語モデルにおける発話終端情報利用の有効性2017

著者名/発表者名

学会等名

[図書] 人工知能学大辞典, 人工知能学会（編），話者認識・話者照合2017

著者名/発表者名

総ページ数

出版者

2017 年度実施状況報告書

小川哲司早稲田大学, 理工学術院, 准教授 (70386598)