2014 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Research Project

Project/Area Number	26280055
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	DUH Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) 能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	音声認識 / 音声合成 / ディープニューラルネットワーク / 国際研究者交流（アメリカ）
Outline of Annual Research Achievements	本年度においては、まず研究で用いるさまざまな構造のディープニューラルネットの学習や評価を行うために、ソフトウエアの設計と実装を行った。大規模なネットワークの学習には多くの計算が必要であることからＧＰＵを用いることが必須であり、CPUとGPUの間でのデータ転送を最適化するなどにより計算処理の高速化を行った。まず比較的小さなタスクとしてディープニューラルネットを用いたキーワード検出に取り組んだ。ここでは、ディープニューラルネットを特徴量抽出器として用いている。従来一般的な特徴量を用いた場合よりも大幅に高い単語検出精度を実現できた。ディープニューラルネットワークの構造は従来一般に階層型を基本としているが、ニューロン集合をノードとする任意の有向無サイクルグラフを対象としたより柔軟な構造を対象とした構造最適化法として、進化的アルゴリズムを応用した手法を提案し、実験により有効性を示した。ディープニューラルネットを用いた一対多および多対一の声質変換器の提案を行った。一対多変換は、特定の話者の声質の音声を別の任意の話者の声質に変換するもので、自動翻訳システムにおいて出力される音声をユーザーの声質の音声に変換することなどを目的にしている。大規模な認識実験を行うために、研究用音声認識ツールキットKaldiを用いた日本語音声認識システムのベースラインの構築を行った。それを用いて、大語彙音声認識をタスクとしたディープニューラルネットの構造最適化に取り組んだ。なお、音声認識研究においてKaldiはオープンな研究基盤として世界的に標準になりつつあるものであるが、現状日本語システムは公開されたベースラインが存在せず立ち遅れた状況にある。このことは日本語音声認識システムを用いた研究成果を世界にアピールする上で不利となる。そこで、本ベースラインを同ツールキットのレシピとして公開する予定である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本プロジェクトを遂行する上で必要なソフト上の設計と実装を進め、効率的な動作を実現できた。また、大規模な認識実験を行うために音声認識研究において世界的に標準となりつつあるKaldiツールキットを用いた日本語音声認識システムのベースラインの構築を行った。これらのソフトウエアを用いた計算機実験を研究室および大学の計算機センターの大型計算機上で行うため、各種ライブラリのインストールを行うなど実験環境のセットアップを行った。また、本プロジェクトのメンバーはそれぞれ異なる大学や研究所に所属しているが、共同しての研究を効率的に進めるため、計算機センターの計算機上で共同して計算機実験を行える環境を整えた。ディープニューラルネットを特徴量抽出器として用いた単語検出手法や、ニューロン集合をノードとする任意の有向無サイクルグラフを対象とした構造最適化法、音声特徴量とともに話者コードを入力として声質変換を行う手法などを提案し、多様な構造のディープニューラルネットを学習し、評価する実験を進めた。ディープニューラルネットワークを用いた大語彙日本語音声認識システムの半教師付学習について、ラベル付音声データとラベルなし音声データの割合を変えた時の認識性能について、調査を行った。音声生成における声道の物理的制約をシステムに取り込む方法についてネットワークの構成や計算効率の観点から検討を行ったが、ソフトウエアの具体的な設計は今後進める予定である。
Strategy for Future Research Activity	音声情報処理システムの構築における人手の介入の必要性を最小化するための研究を進める。従来熟練した専門家による作業を必要としていたディープニューラルネットワークを用いた高性能大語彙連続音声認識システムの構築について、人手の介入なく高性能なシステムを半自動的に実現するために、進化的アルゴリズムを大規模に適用する。進化的アルゴリズムでは個体に見立てた多数のシステムの生成と評価が必要となることから、並列計算機上で大規模な計算を行うためのソフトウエアを作成し、実験を行う。大語彙音声認識システムでは認識性能とともに、認識にかかる計算量の観点から使用する統計モデルのサイズも重要な要素である。複数の評価項目について、人手を介さずにバランスを取りながらシステムを進化させる方法について検討を行う。進化の過程を分析し、より進化効率の高い進化的アルゴリズムについて検討を行う。半教師付学習によるディープニューラルネットワークを用いた大語彙音声認識システムの学習について、従来法について学習データの条件を変えた実験を進め、ベースラインとして用いるシステムを確立する。それをもとに、Hub型ニューラルネットワークを用いたより高い性能の半教師付学習法の実現に取り組む。効果的な半教師付学習を実現する上で、教師なし学習や教師付学習をどのように組み合わせるのが効果的か、ネットワークのトポロジーや学習スケジューリング等について実験や分析を行う。ディープニューラルネットワークを用いた声質変換や音声合成について、これまでに提案したネットワーク構成や学習法を拡張する形で改良を行う。また、それらネットワークに音声生成過程をモデル化した機構を組み込む方法やその効果などについて検討を行う。
Causes of Carryover	計算機設備について、大学計算機センターの大型計算機の利用について当初懸念したソフトウエアライブラリの互換性について問題が無いことが分かったことから、経費の節約のため研究室で購入する計算機の費用を抑制した。
Expenditure Plan for Carryover Budget	今後規模を拡大した計算機実験を大学の計算機センターの計算機を用いて行う予定であり、その利用料等に使用する。また、年度末の数か月間は計算機センターが大変混雑して思うように実験を進められないことがあることが判明したことから、研究室においても一定の計算設備を用意する。この他前年度に提案した声質変換の性能を向上させるため学習に用いる話者の数を増やすことを計画しているが、これにともなう費用に使用する。

Research Products
(5 results)

All 2015 2014

All Presentation (5 results)

[Presentation] Structure discovery of deep neural network based on evolutionary algorithms2015
- Author(s)
  Takahiro Shinozaki, Shinji Watanabe
- Organizer
  IEEE ICASSP
- Place of Presentation
  オーストラリア・ブリスベン
- Year and Date
  2015-04-19 – 2015-04-24
[Presentation] ニューラルネットワークに基づくユーザ音声を必要としない多対一声質変換の検討2015
- Author(s)
  能勢隆，篠崎隆宏，伊藤洋二郎，伊藤彰則
- Organizer
  日本音響学会 2015 春季研究発表会
- Place of Presentation
  中央大学（後楽園キャンパス）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] ニューラルネットワークを用いた話者特徴量抽出に基づく一対多クロスリンガル声質変換2015
- Author(s)
  伊藤洋二郎，篠崎隆宏，能勢隆
- Organizer
  日本音響学会 2015 春季研究発表会
- Place of Presentation
  中央大学（後楽園キャンパス）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 進化的アルゴリズムの大規模実行によるDNN構造最適化2015
- Author(s)
  篠崎隆宏, 渡部晋治
- Organizer
  日本音響学会 2015 春季研究発表会
- Place of Presentation
  中央大学（後楽園キャンパス）
- Year and Date
  2015-03-16 – 2015-03-18
[Presentation] 話者特徴量入力を付加したデノイジングオートエンコーダによるクロスリンガル声質変換2014
- Author(s)
  伊藤洋二郎, 篠崎隆宏, 能勢隆
- Organizer
  情報処理学会
- Place of Presentation
  東工大（すずかけ台キャンパス）
- Year and Date
  2014-12-15 – 2014-12-16

2014 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Principal Investigator

篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Presentation] Structure discovery of deep neural network based on evolutionary algorithms2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ニューラルネットワークに基づくユーザ音声を必要としない多対一声質変換の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ニューラルネットワークを用いた話者特徴量抽出に基づく一対多クロスリンガル声質変換2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 進化的アルゴリズムの大規模実行によるDNN構造最適化2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 話者特徴量入力を付加したデノイジングオートエンコーダによるクロスリンガル声質変換2014

Author(s)

Organizer

Place of Presentation

Year and Date

篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)