2016 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Research Project

Project/Area Number	26280055
Research Institution	Tokyo Institute of Technology
Principal Investigator	篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)
Co-Investigator(Kenkyū-buntansha)	能勢隆東北大学, 工学(系)研究科(研究院), 准教授 (90550591)
Project Period (FY)	2014-04-01 – 2018-03-31
Keywords	音声認識 / ディープニューラルネットワーク / 音響モデル / 言語モデル / 進化的アルゴリズム / 教師なし学習 / 深層学習
Outline of Annual Research Achievements	前年度において音声認識システムで音響モデルとして用いられる大規模なフィードフォワード型ニューラルネットワークの構造や学習条件等について専門家のノウハウや労力に頼ることなく進化計算により自動的に最適化する手法を提案し有効性を示したが、その成果を発展させリカレント構造を有するニューラルネットワークに適用し言語モデルの最適化において認識性能の向上を実現した。ネットワーク構造は通常のリカレントネットワークの他Long Short Term Memoryを用いたネットワーク、HighwayネットワークやResidualネットワークなどを遺伝子に符号化し、認識性能と計算コストを考慮した多目的最適化により最適化した。この他、ディープニューラルネットワークの半教師あり学習や、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組んだ。また、音声認識システムの学習における自立性を向上させ人における柔軟で強力な学習に近づけるための試みとして、発音辞書の半教師あり学習に取り組んだ。これは、一部の単語にのみ発音が与えられている初期モデルから出発し、コンテキスト情報を手掛かりとすることでラベル付き音声データを用いることなく発音が未知の単語の発音を自動獲得させようとするものである。このために、発音辞書を無限混合モデルとしてモデル化する方法を提案し、ブロックギブスサンプリングを応用したベイズ法による学習アルゴリズムを定式化し、また重み付き有限状態トランスデューサを用いた実装を行った。本プロジェクトにおいて研究成果を組み込む形で開発した高性能大語彙日本語音声認識システムは、KaldiツールキットのCSJレシピとして容易に利用可能な形で一般公開しており、企業や大学において広く利用されつつある状況である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 前年までの成果を発展させ、音響モデルとともにディープニューラルネットワークを用いた言語モデルについても性能を向上させるためのチューニングを進化的アルゴリズムを用いることで専門家に頼ることなく実現することができた。現在ディープニューラルネットワークの構造や学習条件の最適化は専門家のノウハウや労力に頼る部分が非常に大きいことが問題となっているが、この成果はそのような人的コストを計算機による効率的な計算に置き換えるものである。音響モデルの半教師あり学習については、非母語話者の音声認識について取り組み、出力層を分岐させたディープニューラルネットを用いることで効果的な学習が行えることを確認した。さらに、より高度な学習の自立化を実現するための試みとして発音辞書の半教師あり学習に取り組み、これまでに無い新しい方法の提案と実装を行い、またそのような学習が実際に可能であることを示すことができた。また、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組み、有効な結果を得ることができた。
Strategy for Future Research Activity	音声認識システムにおいて用いられるディープニューラルネットワークを用いた音響モデルや言語モデルについて進化的アルゴリズムを応用することで自動的にネットワーク構造や学習条件を最適化することをこれまで実現したが、今後は最適化をより高度に進めることでより高度な性能を得ることを目指す。また、最適化の対象とするシステムを自動翻訳システムも含める形で拡大する。また、音響モデルや発音辞書の半教師あり学習や教師なし学習についての取り組みを強化する。ベイズ理論やサンプリングを応用した新しい学習アルゴリズムについて、新しいアルゴリズムを提案するとともに、大規模な計算に基づいた評価実験を行う。また、ニューラルネットワークを用いた音声合成・声質変換についても、引き続き取り組む。
Causes of Carryover	大学の計算機センターの計算機が比較的すいており、そちらを多く使用することができたため計算機の購入を先送りしたため。
Expenditure Plan for Carryover Budget	大学の計算機センターにおいて大規模なハードウエアの改修が計画されていること、計算機センターでサポートされていないライブラリを使用したり、利用が制限されている長時間の計算を行う必要のある実験を計画していることから、計算機の購入を予定する。

Research Products
(18 results)

All 2017 2016

All Journal Article (4 results) (of which Int'l Joint Research: 3 results, Peer Reviewed: 1 results, Open Access: 1 results, Acknowledgement Compliant: 4 results) Presentation (14 results) (of which Invited: 3 results)

[Journal Article] Evolution Strategy Based Neural Network Optimization and LSTM Language Model for Robust Speech Recognition2016
- Author(s)
  Tomohiro Tanaka, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori
- Journal Title
  
  Proceedings of the 4th International Workshop on Speech Processing in Everyday Environments CHiME 2016
  
  Volume: - Pages: 32-35
- Peer Reviewed / Open Access / Int'l Joint Research / Acknowledgement Compliant
[Journal Article] Evolutionary optimization of Long Short-Term Memory neural network language model2016
- Author(s)
  Tomohiro Tanaka, Takafumi Moriya, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori, Kevin Duh
- Journal Title
  
  Journal of the Acoustical Sciety of America
  
  Volume: 140.4 Pages: 3062-3062
- DOI
  http://dx.doi.org/10.1121/1.4969532
- Int'l Joint Research / Acknowledgement Compliant
[Journal Article] Improvement of quality of voice conversion based on spectral differential filter using STRAIGHT-based mel-cepstral coefficients2016
- Author(s)
  Koike Harunori, Takashi Nose, Takahiro Shinozaki, Akinori Ito
- Journal Title
  
  The Journal of the Acoustical Society of America
  
  Volume: 140.4 Pages: 2963-2963
- DOI
  http://dx.doi.org/10.1121/1.4969157
- Acknowledgement Compliant
[Journal Article] AUTOMATED STRUCTURE DISCOVERY AND PARAMETER TUNING OF NEURAL NETWORK LANGUAGE MODEL BASED ON EVOLUTION STRATEGY2016
- Author(s)
  Tomohiro Tanaka, Takafumi Moriya, Takahiro Shinozaki, Shinji Watanabe, Takaaki Hori, Kevin Duh
- Journal Title
  
  Proc. Spoken Language Technology
  
  Volume: - Pages: 665-671
- DOI
  10.1109/SLT.2016.7846334
- Int'l Joint Research / Acknowledgement Compliant
[Presentation] ベイズ的教師なし発音辞書学習のWFST実装およびサンプリングアルゴリズムの検討2017
- Author(s)
  篠崎隆宏, 渡部晋治, 持橋大地, Graham Neubig
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  明治大学（神奈川県川崎市）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] Highwayネットワーク言語モデルを用いた日本語話し言葉音声認識2017
- Author(s)
  田中智大, 篠崎隆宏, 渡部晋治
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  明治大学（神奈川県川崎市）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 半教師ありDNN学習を用いた日本語スピーキングテスト音声の認識2017
- Author(s)
  加藤拓, 篠崎隆宏
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  明治大学（神奈川県川崎市）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 読み上げ音声を用いたニューラルネットワークによる任意歌唱者歌声声質変換の検討2017
- Author(s)
  小池治憲，能勢隆，伊藤彰則
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  明治大学（神奈川県川崎市）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 敵対的学習を利用したニューラルネットワークに基づく任意話者声質変換の検討2017
- Author(s)
  宮本颯, 能勢隆, 伊藤鈴乃介, 小池治憲, 伊藤彰則
- Organizer
  日本音響学会春季研究発表会
- Place of Presentation
  明治大学（神奈川県川崎市）
- Year and Date
  2017-03-15 – 2017-03-17
[Presentation] 第３回Frederick Jelinek記念サマーワークショップでの教師なし発音辞書学習の取り組み2016
- Author(s)
  篠崎隆宏、渡部晋治、持橋大地、Graham Neubig
- Organizer
  音声言語処理研究会（SLP）
- Place of Presentation
  NTT武蔵野研究開発センタ(東京都武蔵野市)
- Year and Date
  2016-12-20 – 2016-12-21
[Presentation] Kaldiツールキットを用いた音声認識システムの構築2016
- Author(s)
  篠崎隆宏
- Organizer
  音声研究会(SP)
- Place of Presentation
  静岡大学（静岡県浜松市）
- Year and Date
  2016-10-27 – 2016-10-27
- Invited
[Presentation] 日本語話し言葉音声における半教師ありDNN学習の検討2016
- Author(s)
  加藤拓, 篠崎隆宏
- Organizer
  音声言語処理研究会（SLP）
- Place of Presentation
  早稲田大学（東京都新宿区）
- Year and Date
  2016-10-06 – 2016-10-06
[Presentation] 大規模進化計算による音声認識システム開発の自動化2016
- Author(s)
  篠崎隆宏
- Organizer
  GTC Japan 2016
- Place of Presentation
  ヒルトン東京お台場（東京都港区）
- Year and Date
  2016-10-05 – 2016-10-05
- Invited
[Presentation] 進化的戦略を用いたリカレントニューラルネットワーク言語モデルの最適化2016
- Author(s)
  田中智大, 森谷崇史, 篠崎隆宏, 渡部晋治, 堀貴明, Kevin Duh
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  富山大学（富山県富山市）
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] 連続音声認識におけるLSTMによる単語履歴を考慮した未知語検出法2016
- Author(s)
  池下裕紀,篠崎隆宏
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  富山大学（富山県富山市）
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] 差分スペクトルフィルタに基づく声質変換における性能向上の検討2016
- Author(s)
  小池治憲, 能勢隆, 篠崎隆宏, 伊藤彰則
- Organizer
  日本音響学会秋季研究発表会
- Place of Presentation
  富山大学（富山県富山市）
- Year and Date
  2016-09-14 – 2016-09-16
[Presentation] 音声認識ツールキットKaldiを用いた大語彙日本語音声認識2016
- Author(s)
  篠崎隆宏
- Organizer
  FIT2016
- Place of Presentation
  富山大学（富山県富山市）
- Year and Date
  2016-09-07 – 2016-09-09
- Invited
[Presentation] LSTMによる単語履歴を考慮した未知語検出法2016
- Author(s)
  池下裕紀,篠崎隆宏
- Organizer
  音声研究会(SP)
- Place of Presentation
  京都大学(京都市左京区)
- Year and Date
  2016-08-24 – 2016-08-25

2016 Fiscal Year Annual Research Report

音声認識生成システムの自己組織化学習

Principal Investigator

篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Evolution Strategy Based Neural Network Optimization and LSTM Language Model for Robust Speech Recognition2016

Author(s)

Journal Title

[Journal Article] Evolutionary optimization of Long Short-Term Memory neural network language model2016

Author(s)

Journal Title

DOI

[Journal Article] Improvement of quality of voice conversion based on spectral differential filter using STRAIGHT-based mel-cepstral coefficients2016

Author(s)

Journal Title

DOI

[Journal Article] AUTOMATED STRUCTURE DISCOVERY AND PARAMETER TUNING OF NEURAL NETWORK LANGUAGE MODEL BASED ON EVOLUTION STRATEGY2016

Author(s)

Journal Title

DOI

[Presentation] ベイズ的教師なし発音辞書学習のWFST実装およびサンプリングアルゴリズムの検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Highwayネットワーク言語モデルを用いた日本語話し言葉音声認識2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 半教師ありDNN学習を用いた日本語スピーキングテスト音声の認識2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 読み上げ音声を用いたニューラルネットワークによる任意歌唱者歌声声質変換の検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 敵対的学習を利用したニューラルネットワークに基づく任意話者声質変換の検討2017

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 第３回Frederick Jelinek記念サマーワークショップでの教師なし発音辞書学習の取り組み2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Kaldiツールキットを用いた音声認識システムの構築2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 日本語話し言葉音声における半教師ありDNN学習の検討2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 大規模進化計算による音声認識システム開発の自動化2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 進化的戦略を用いたリカレントニューラルネットワーク言語モデルの最適化2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 連続音声認識におけるLSTMによる単語履歴を考慮した未知語検出法2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 差分スペクトルフィルタに基づく声質変換における性能向上の検討2016

Author(s)

Organizer

篠崎隆宏東京工業大学, 工学院, 准教授 (80447903)