研究課題/領域番号 |
16K12465
|
研究機関 | 早稲田大学 |
研究代表者 |
小川 哲司 早稲田大学, 理工学術院, 准教授 (70386598)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 話者照合 / 特徴抽出 / 深層学習 |
研究実績の概要 |
音声信号が持つ個人性(話者特徴)を発話内容(音韻特徴)の影響を受けずに抽出する技術を開発し,発話内容の違いの影響が原因で実用化の域に達していない短い発話に対する話者照合の性能を抜本的に改善することを目指す.そのために,(WP1)人の発声機構に着目し,発話内容の情報が混入しない声帯からの信号を用いて話者特徴を抽出する技術,(WP2)深層学習を用いて音響的な情報から話者を認識するための情報と発話内容を認識するための情報を分離する技術,(WP3)音声認識と音声合成技術を駆使して話者特徴に含まれる発話内容の影響を直接的に取り除く技術を確立する.平成28年度はそのうち,(WP1)と(WP3)に焦点を当てて研究を行った. (WP1)では,人の発声機構を考慮して話者固有の情報を抽出する技術について検討を行った.本年度は,話者固有の情報として声帯の情報に着目した.声帯情報として線形予測残差信号を作成し,一般的に使われている話者情報(スペクトル包絡の情報)よりも話者性が保持されていることを聴取実験により確認した. (WP3)では,登録・照合データ間の発話内容に関する差異を音声認識・合成技術を駆使して直接的に取り除き,「話者らしさ」のみで比較・評価可能にする方式について検討を行った.具体的には,登録・照合用音声の音韻系列を各々推定し(音声認識),得られた系列に対して事前に用意した話者モデルから音響特徴系列を生成する(音声合成).このように,共通の話者モデルを通じて得られた登録・照合発話の話者特徴の違いは発話内容の違いを補正する関数を与える.まず予備検討として,同じ話者で異なる内容の発話,異なる話者で同じ内容の発話の話者特徴空間上での位置関係を調査し,提案アプローチの妥当性の検証を行った.また,比較的単純なモデルによる音声合成器を構築し,提案システム開発の準備を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成28年度の実施においては,(WP1)話者固有の情報を利用する技術:声帯情報を利用した話者特徴の抽出方式の開発,(WP2)話者固有の情報を抽出する技術:深層ニューラルネットワーク(DNN)を用いて話者情報と音韻情報を分離する方式の開発,(WP3)発話内容の違いを抑圧する技術:入力される発話に対して音声認識と音声合成技術を活用することで,話者特徴における発話内容の違いの影響を直接的に取り除く方式の開発,の各項目において,提案する方式の妥当性の確認と課題を抽出する計画であった. (WP1)においては,声帯情報を表す線形予測残差信号の聴取を通じて,声帯情報は,従来より話者特徴として用いられてきたスペクトル包絡に基づく情報よりも,「話者らしさ」を陽に含んでいることを確認した.ただし,現在の標準技術であるUBM/i-vectorアプローチでは良好な性能が得られないことも確認した.そこで,深層学習関連技術の調査により,声帯情報を補助情報として活用するためのネットワーク構造に関する着想を得た. (WP2)においては,近年の深層学習関連技術の調査を行い,近年提案された深層敵対的ニューラルネットワークを改良することで,当初計画していた方式よりも話者固有の特徴の抽出が容易になるという着想を得た. (WP3)においては,合成音声から話者特徴(i-vector)を抽出する際,通常の音声から構築した特徴抽出器を用いることは現実的ではないことが明らかになった.しかしながら,i-vectorの抽出器も合成音声を用いて構築することで,この問題を回避することができる見込みを得た. 以上の通り,各項目について基本方式の開発および課題と対応策の抽出ができたという点で,おおむね順調に推移していると言える.
|
今後の研究の推進方策 |
平成29年度は,引き続き3つのワークパッケージについて下記の通り検討を行う. (WP1)では,人の発声機構を考慮して話者固有の情報を抽出し,現在の話者表現のde factoであるi-vectorの推定に利用する.平成28年度に引き続き声帯情報として線形予測残差スペクトルを用いてi-vectorの抽出及び話者照合システムの構築を行い,NIST SRE2008コーパスにより評価を行う.i-vectorの抽出は,主にデータの音響空間へのマッピング(アライメント)とマッピングされたデータ分布と一般的な話者のデータ分布のずれを低次元のベクトルで表現する処理(因子分析)から成ることに着目し,どの処理段階でどのように声帯情報を利用するかを検討する.アライメントの段階で発話内容の違いの影響を大きく受けるため,アライメントにおける声帯情報の利用が重要であると予想している. (WP2)では,話者を識別するDNNを構築し,その隠れ層の出力を話者特徴として用いることで,発話内容の違いなどの「話者らしさ」に寄与しない要因を抑圧する方式について検討を行う.ただし,当初の計画を変更し,最近提案された深層敵対的学習を拡張することで,より発話内容の違いの影響を受けにくい話者特徴抽出方式の開発を行う.ここでは,話者クラスの決定方法や,ネットワークの構造について検討を行う. (WP3)では,平成28年度の検討結果に基づき,i-vector抽出器を合成音声(正確には合成したケプストラム係数ベクトル系列)を用いて構築することで,発話内容の違いを補正する写像の正確性を抜本的に改善することを試みる.また,音声合成装置として,別途構築したDNNに基づく音声合成システムを援用し,発話内容補正のさらなる高精度化を目指す.
|
次年度使用額が生じた理由 |
購入した物品の価格が当初の予定よりも値下げされたことによる.次年度は,高性能GPUの購入が見込まれるため,次年度に使用することにした.
|
次年度使用額の使用計画 |
計算機設備の拡充のため,平成29年度使用額と合わせて高性能GPUの購入に充てる.価格の値下げが生じた場合は,深層学習・機械学習関連書籍の購入に充てる.
|