研究課題/領域番号 |
16K12465
|
研究機関 | 早稲田大学 |
研究代表者 |
小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 話者照合 / 特徴抽出 / 深層学習 |
研究実績の概要 |
音声信号が持つ個人性(話者特徴)を発話内容(音韻特徴)の影響を受けずに抽出する技術を開発し,発話内容の違いの影響が原因で実用化の域に達していない短い発話に対する話者照合の性能を抜本的に改善することを目指す.そのために,(WP1)人の発声機構に着目し,発話内容の情報が混入しない声帯からの信号を用いて話者特徴を抽出する技術,(WP2)深層学習を用いて音響的な情報から話者を認識するための情報と発話内容を認識するための情報を分離する技術,(WP3)音声認識と音声合成技術を駆使して話者特徴に含まれる発話内容の影響を直接的に取り除く技術を確立する.平成29年度はそのうち,主に(WP2)に焦点を当てて研究を行った. (WP2)では,従来の音韻情報を暗に用いるアプローチとは反対に,話者性と音韻性は分離して抽出することが可能であると仮定する.その上で,音韻の影響を受けない話者表現を得るためのニューラルネットワークを構築することを試みた.ここでは,フレーム単位で情報を圧縮するオートエンコーダを導入し,その中間層の出力に対して音素認識率が低下するような敵対的学習を導入した.このことで,音韻の変動に対して不変な特徴量が得られることが期待できる.実験では,得られた音韻独立な特徴量を用いて算出したi-vector が,元の音響空間で構築したi-vector やDNN 音響モデルに基づくボトルネック特徴量よりも高い精度の話者照合性能を達成できることを明らかにした.この傾向は発話長が短いほどより顕著であることから,提案する敵対的学習法は音素非依存な話者表現をフレーム単位で得るために極めて有効であると言える.本成果は,2018年日本音響学会春季研究発表会およびICASSP2018にて発表済みである.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成29年度の実施においても,引き続き,(WP1)話者固有の情報を利用する技術,(WP2)話者固有の情報を抽出する技術,(WP3)発話内容の違いを抑圧する技術の各項目において検討を進める計画であった. 平成28年度に実施した各ワークパッケージに関する予備検討の結果および平成29年度の研究の過程で,敵対的学習に基づく深層ニューラルネットワークが音韻の影響を受けにくい話者特徴抽出において有望であることが明らかになり,本年度は(WP2)に重きを置きながら検討を行った.ここでは,音韻情報と話者情報を厳密に分離するのではなく,音響特徴量を1) 音韻の識別に寄与する情報,2) 話者の識別に寄与する情報,3) 両者が混在する情報に分離した上で,話者の識別に寄与する情報のみを話者特徴として利用すべき,という新たな着想を得た.平成29年度は,このアナロジーに基づいたニューラルネットワークの構造,およびその決定アルゴリズムに関する知見を得た. 本研究の(WP3)は,音声合成技術をツールとして利用するという立場を採っているが,近年提案されたWaveNetは音声合成に関わる多くの課題において著しい性能改善を与えている.また,話者照合は数秒という継続長の情報が必要になるが,WaveNetで利用されるdilated causal CNNはこのような長時間情報の取り扱いを効果的にモデル化する技術とも捉えることができ,話者情報の抽出にこそ有用な技術と言える.平成29年度は,(WP2)および(WP3)に関連し,補助情報を用いたdilated causal CNNに基づくオートエンコーダについて検討を行い,長時間情報の取り扱いを可能とする構造に関する知見を得た. 以上の通り,音韻と話者情報の分離という目的に向けて有望な方式を提案し,成果も出始めているという点で,おおむね順調に推移していると言える.
|
今後の研究の推進方策 |
平成30年度は,引き続き,3つのワークパッケージのうち最も有望である(WP2)に重きを置いて検討を行う予定である. (WP2)では,より大規模なコーパスを用いて提案ネットワークを構築することを試みる.また,平成29年度は TIMIT で提供された標準的な音素セットに対し敵対的学習を適用したが,平成30年度は,音素セットの選び方が提案アプローチに与える影響の調査も行う. 一般的に,発話者の情報を信頼性高く抽出するためには,数秒~数10秒といった長時間の情報を用いることが望ましい.そこで,長時間情報を効果的に利用可能なネットワークである dilated causal CNN を特徴抽出部(エンコーダ)に利用した end-to-end 話者照合手法に対して提案アプローチを適用することを試みる. さらに,(WP1)の検討項目である,人の発声機構を考慮した話者固有の情報(声帯情報と見なされる線形予測残差スペクトル)は,上記で検討中の音韻の影響を受けにくい話者特徴抽出用ネットワークの参照信号として利用することを試みる.
|
次年度使用額が生じた理由 |
出張および消耗品購入に関わる経費が当初の予定と異なったため. 翌年度の出張および消耗品(GPUなど)の購入費用の一部として使用する予定である.
|