2016 Fiscal Year Annual Research Report
Project/Area Number |
26280055
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠崎 隆宏 東京工業大学, 工学院, 准教授 (80447903)
|
Co-Investigator(Kenkyū-buntansha) |
能勢 隆 東北大学, 工学(系)研究科(研究院), 准教授 (90550591)
|
Project Period (FY) |
2014-04-01 – 2018-03-31
|
Keywords | 音声認識 / ディープニューラルネットワーク / 音響モデル / 言語モデル / 進化的アルゴリズム / 教師なし学習 / 深層学習 |
Outline of Annual Research Achievements |
前年度において音声認識システムで音響モデルとして用いられる大規模なフィードフォワード型ニューラルネットワークの構造や学習条件等について専門家のノウハウや労力に頼ることなく進化計算により自動的に最適化する手法を提案し有効性を示したが、その成果を発展させリカレント構造を有するニューラルネットワークに適用し言語モデルの最適化において認識性能の向上を実現した。ネットワーク構造は通常のリカレントネットワークの他Long Short Term Memoryを用いたネットワーク、HighwayネットワークやResidualネットワークなどを遺伝子に符号化し、認識性能と計算コストを考慮した多目的最適化により最適化した。この他、ディープニューラルネットワークの半教師あり学習や、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組んだ。 また、音声認識システムの学習における自立性を向上させ人における柔軟で強力な学習に近づけるための試みとして、発音辞書の半教師あり学習に取り組んだ。これは、一部の単語にのみ発音が与えられている初期モデルから出発し、コンテキスト情報を手掛かりとすることでラベル付き音声データを用いることなく発音が未知の単語の発音を自動獲得させようとするものである。このために、発音辞書を無限混合モデルとしてモデル化する方法を提案し、ブロックギブスサンプリングを応用したベイズ法による学習アルゴリズムを定式化し、また重み付き有限状態トランスデューサを用いた実装を行った。 本プロジェクトにおいて研究成果を組み込む形で開発した高性能大語彙日本語音声認識システムは、KaldiツールキットのCSJレシピとして容易に利用可能な形で一般公開しており、企業や大学において広く利用されつつある状況である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年までの成果を発展させ、音響モデルとともにディープニューラルネットワークを用いた言語モデルについても性能を向上させるためのチューニングを進化的アルゴリズムを用いることで専門家に頼ることなく実現することができた。現在ディープニューラルネットワークの構造や学習条件の最適化は専門家のノウハウや労力に頼る部分が非常に大きいことが問題となっているが、この成果はそのような人的コストを計算機による効率的な計算に置き換えるものである。音響モデルの半教師あり学習については、非母語話者の音声認識について取り組み、出力層を分岐させたディープニューラルネットを用いることで効果的な学習が行えることを確認した。さらに、より高度な学習の自立化を実現するための試みとして発音辞書の半教師あり学習に取り組み、これまでに無い新しい方法の提案と実装を行い、またそのような学習が実際に可能であることを示すことができた。また、ニューラルネットワークを用いた任意話者声質変換、任意歌唱者歌声声質変換などに取り組み、有効な結果を得ることができた。
|
Strategy for Future Research Activity |
音声認識システムにおいて用いられるディープニューラルネットワークを用いた音響モデルや言語モデルについて進化的アルゴリズムを応用することで自動的にネットワーク構造や学習条件を最適化することをこれまで実現したが、今後は最適化をより高度に進めることでより高度な性能を得ることを目指す。また、最適化の対象とするシステムを自動翻訳システムも含める形で拡大する。また、音響モデルや発音辞書の半教師あり学習や教師なし学習についての取り組みを強化する。ベイズ理論やサンプリングを応用した新しい学習アルゴリズムについて、新しいアルゴリズムを提案するとともに、大規模な計算に基づいた評価実験を行う。また、ニューラルネットワークを用いた音声合成・声質変換についても、引き続き取り組む。
|
Causes of Carryover |
大学の計算機センターの計算機が比較的すいており、そちらを多く使用することができたため計算機の購入を先送りしたため。
|
Expenditure Plan for Carryover Budget |
大学の計算機センターにおいて大規模なハードウエアの改修が計画されていること、計算機センターでサポートされていないライブラリを使用したり、利用が制限されている長時間の計算を行う必要のある実験を計画していることから、計算機の購入を予定する。
|
Research Products
(18 results)