2015 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Research Project

Project/Area Number	26280055
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	Duh Kevin 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80637322) [Withdrawn] 能勢隆東北大学, 工学(系)研究科(研究院), 講師 (90550591)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	音声認識 / 音声合成 / ディープニューラルネットワーク
Outline of Annual Research Achievements	ディープニューラルネットワークの構造最適化について、前年度の小規模または部分的なタスクを用いた実験を発展させ、大語彙音声認識タスクでの研究と実装を進めた。今日の高性能音声認識システムでは、発音記号と音声信号の対応をモデル化する役割を果たす音響モデルとしてディープニューラルネットワークが用いられている。システムに高い認識性能を発現させるためには、ディープニューラルネットワークにどのような構造を持たせるかが重要となる。そこで、音響モデルとして用いられるディープニューラルネットワークの構造を進化計算をもとに自己組織化的に最適化する手法について提案し研究を行った。大規模な計算が必要になることから効率的な進化計算手法を応用するとともに、並列計算を行うソフトウエアを開発し実験をすすめた。その結果、公開されている日本語話し言葉音声認識システムとしては世界トップレベルの認識性能が実現できた。成果は論文等で発表したほか、最適化したシステムは研究コミュニティで共有されているソフトウエアレポジトリを通して一般公開た。公開したシステムは、日本語音声認識のベースラインとして利用されている。また、リカレント構造を持ったニューラルネットワークを用いた言語モデルに同手法を応用し、認識性能をさらに向上させる研究に取り組んでいる。音響モデルの半教師付き学習のアルゴリズムとして、教師なし学習で学習した疑似音素を用いる手法について実験を進めた。小規模な実験で効果が確認できたことから、同様の枠組みを大語彙音声認識実験に組み込み、実験を進めている。また、ディープニューラルネットワークを用いた声質変換手法について、声質変換の性能を制約する要因について分析を行い、それに基づいた改善策の研究を進めた。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 大規模で複雑なディープニューラルネットワークの構造を自動的に最適化する手法を提案し、大語彙音声認識システムに実装し、認識実験により効果を確認できた。その過程において開発した日本語大語彙音声認識システムおよび提案手法により最適化したディープニューラルネットワークのデザインは研究コミュニティで共有されているソフトウエアレポジトリを通して公開し、日本語音声認識のベースラインとして一般に利用されている。半教師付き学習アルゴリズムとして、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いる手法について検討を進めた。この手法では、半教師付き学習のプロセスにおいて人手によるラベルデータと疑似ラベルデータを同時に使用するため、出力側が分岐した構造を持つディープニューラルネットワークを用いている。小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進めている。また、声質変換やその応用タスクへのディープニューラルネットワークの利用について、研究を進めている。また、本プロジェクトのこれまでの成果をもとに、アメリカやチェコ、ドイツなど海外の大学の研究室とのネットワークを広げることができた。
Strategy for Future Research Activity	これまでループを持たないフィードフォワード型のディープニューラルネットワークを中心に構造の自動最適化手法の研究を進めてきたが、今年度はループ構造を含むより複雑な構造を持ったリカレントニューラルネットワークに対して重点を置いて研究を進める。特に、長・短期記憶レイヤーの利用や活性化関数の種類選択を含めた構造デザインの自動最適化について実装と実験を進める。モデルパラメタの半教師付き学習について、少量のラベル付き音声データと、教師なし学習により獲得した疑似音素を用いてラベル付けした大量のラベルなし音声データを用いた手法の検討を進める。これまでに小規模なタスクにおいて効果が確認できたことから、大語彙音声認識システムに組み込んでの実験を進める。ただし、本年度において海外で類似した研究の発表があったことから、そちらの動向について注視するとともに本研究で独自となる部分についての研究と実証を急ぐ。疑似音素の半教師付き学習については、海外の研究室との協力も検討する。 Hub型ネットワークにおいて多様な学習を可能とするため、関数形が明示的に与えられていないブラックボックス関数として実現されるコンポーネントの埋め込み方法について検討を進める。具体的には解析的な偏微分に頼らずバックプロパゲーションを実現するアルゴリズムの検討と実装を進める。また、成果発表の一形態として研究コミュニティで共有されているソフトウエアレポジトリを介して日本語音声認識システムを公開しているが、研究の進展に合わせて公開ソフトウエアのアップデートを行う。
Causes of Carryover	大学計算機センターのスーパーコンピューターの利用について、年度末近くはジョブの混雑のため一定量のタスクを計画通りに実行するために実質的に高い使用量が必要になることを予測していたが、昨年度と比べて混雑が幾分少なかったことから利用ポイントのチャージを減額したことと、スーパーコンピューターでのジョブの実行を前提に研究室内での計算サーバー用PC一台分の購入を控えたことによる。なお実際にはその後チャージポイントの不足が懸念される状況になり、結果的にはチャージが可能な12月中により多くの使用ポイントをチャージしておくべきであった。
Expenditure Plan for Carryover Budget	これまでの研究の過程でソフトウエアの実装が進み、今後大規模計算実験を多く実行することになる。そのため、研究室内で計算サーバーやストレージとして用いるハードウエアを購入するための費用や、大学計算機センターのスーパーコンピュータの使用料として使用する。また、学会等での成果発表のための費用としても使用する。

Research Products
(16 results)

All 2016 2015 Other

All Int'l Joint Research (1 results) Journal Article (3 results) (of which Int'l Joint Research: 2 results, Peer Reviewed: 3 results, Acknowledgement Compliant: 2 results) Presentation (12 results)

[Int'l Joint Research] MERL/Johns Hopkins University(米国)
- Country Name
  U.S.A.
- Counterpart Institution
  MERL/Johns Hopkins University
[Journal Article] Structure discovery of deep neural network based on evolutionary algorithms2015
- Author(s)
  Takahiro Shinozaki, Shinji Watanabe
- Journal Title
  
  Proc. IEEE ICASSP
  
  Volume: 1 Pages: 4979-4983
- Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
[Journal Article] Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting2015
- Author(s)
  Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito
- Journal Title
  
  Proc. IIH-MSP
  
  Volume: 1 Pages: 433-436
- DOI
  DOI 10.1109/IIH-MSP.2015.85
- Peer Reviewed
[Journal Article] Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition Using Evolution Strategy2015
- Author(s)
  Takafumi Moriya, Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Kevin Duh
- Journal Title
  
  Proc. IEEE ASRU
  
  Volume: 1 Pages: 610-616
- Peer Reviewed / Int'l Joint Research / Acknowledgement Compliant
[Presentation] 声質変換における学習時のDTW精度が性能に与える影響2016
- Author(s)
  小池治憲, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  日本音響学会
- Place of Presentation
  桐蔭横浜大学 (神奈川横浜市)
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] 入力話者非依存ニューラルネットワークに基づく差分スペクトルフィルタを用いた声質変換における学習データ量の影響2016
- Author(s)
  池治憲, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  日本音響学会
- Place of Presentation
  桐蔭横浜大学 (神奈川横浜市)
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] Kaldi用CSJレシピへのRNN言語モデルの導入と性能評価2016
- Author(s)
  田中智大，森谷崇史，篠崎隆宏，渡部晋治，堀貴明
- Organizer
  日本音響学会
- Place of Presentation
  桐蔭横浜大学 (神奈川横浜市)
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] 進化的戦略による高精度大語彙音声認識システムの多目的最適化2016
- Author(s)
  森谷崇史，田中智大，篠崎隆宏，渡部晋治，Duh Kevin
- Organizer
  日本音響学会
- Place of Presentation
  桐蔭横浜大学 (神奈川横浜市)
- Year and Date
  2016-03-09 – 2016-03-11
[Presentation] 粒子フィルタとガウス過程回帰によるシングルチャネル音源分離2016
- Author(s)
  博多屋涼, 篠崎隆宏, 郡山知樹
- Organizer
  情報処理学会　SLP研究会
- Place of Presentation
  越中つるぎ温泉（富山県上市町）
- Year and Date
  2016-02-05 – 2016-02-06
[Presentation] KaldiにおけるCSJレシピの利用法2016
- Author(s)
  篠崎隆宏, 森谷崇史, 田中智大, 渡部晋治
- Organizer
  情報処理学会　SLP研究会
- Place of Presentation
  越中つるぎ温泉（富山県上市町）
- Year and Date
  2016-02-05 – 2016-02-06
[Presentation] パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化2015
- Author(s)
  森谷崇史, 田中智大・篠崎隆宏, 渡部晋治, Duh, Kevin
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  名古屋工業大学（名古屋市昭和区御器所町）
- Year and Date
  2015-12-02 – 2015-12-03
[Presentation] DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討2015
- Author(s)
  齋藤優貴, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  電子情報通信学会 EMM研究会
- Place of Presentation
  熊本大学（熊本県熊本市　黒髪南キャンパス）
- Year and Date
  2015-11-12 – 2015-11-13
[Presentation] ニューラルネットワークに基づく差分スペクトルフィルタを用いた任意話者声質変換の検討2015
- Author(s)
  小池治憲, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  電子情報通信学会音声研究会
- Place of Presentation
  神戸大学（兵庫県神戸市）
- Year and Date
  2015-10-15 – 2015-10-16
[Presentation] 高精度日本語話し言葉音声認識のためのKaldiレシピとその評価2015
- Author(s)
  森谷崇史，篠崎隆宏，渡部晋治
- Organizer
  日本音響学会
- Place of Presentation
  会津大学（福島県会津若松市）
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] DNN特徴量抽出器に基づく単語検出器のFPGA実装と評価2015
- Author(s)
  朱凱，李昊霖，篠崎隆宏，堀内靖雄，黒岩眞吾
- Organizer
  日本音響学会
- Place of Presentation
  会津大学（福島県会津若松市）
- Year and Date
  2015-09-16 – 2015-09-18
[Presentation] ビデオ通話における音声および表情特徴量を用いた話者変換の検討2015
- Author(s)
  齋藤優貴, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  EMM研究会
- Place of Presentation
  京都市国際交流会館（京都市左京区）
- Year and Date
  2015-05-21 – 2015-05-22

2015 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Principal Investigator

篠崎 隆宏 東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Int'l Joint Research] MERL/Johns Hopkins University(米国)

Country Name

Counterpart Institution

[Journal Article] Structure discovery of deep neural network based on evolutionary algorithms2015

Author(s)

Journal Title

[Journal Article] Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting2015

Author(s)

Journal Title

DOI

[Journal Article] Automation of System Building for State-of-the-art Large Vocabulary Speech Recognition Using Evolution Strategy2015

Author(s)

Journal Title

[Presentation] 声質変換における学習時のDTW精度が性能に与える影響2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 入力話者非依存ニューラルネットワークに基づく差分スペクトルフィルタを用いた声質変換における学習データ量の影響2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Kaldi用CSJレシピへのRNN言語モデルの導入と性能評価2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 進化的戦略による高精度大語彙音声認識システムの多目的最適化2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 粒子フィルタとガウス過程回帰によるシングルチャネル音源分離2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] KaldiにおけるCSJレシピの利用法2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] パレート最適と進化的戦略を用いた高精度大語彙音声認識システム構築の自動化2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ニューラルネットワークに基づく差分スペクトルフィルタを用いた任意話者声質変換の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 高精度日本語話し言葉音声認識のためのKaldiレシピとその評価2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] DNN特徴量抽出器に基づく単語検出器のFPGA実装と評価2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ビデオ通話における音声および表情特徴量を用いた話者変換の検討2015

Author(s)

Organizer

Place of Presentation

Year and Date

篠崎隆宏東京工業大学, 総合理工学研究科(研究院), 准教授 (80447903)