2014 Fiscal Year Annual Research Report
要素技術の再構成・再解釈に着眼したニューラルネット音声認識システムの高度化
Project/Area Number |
14J09167
|
Research Institution | The University of Tokyo |
Principal Investigator |
柏木 陽佑 東京大学, 工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2014-04-25 – 2016-03-31
|
Keywords | 自動音声認識 / 音響モデル / 話者適応 / 構造的表象 / ニューラルネットワーク |
Outline of Annual Research Achievements |
本年度では,自動音声認識の精度向上を目的として,1) 従来の特徴量関連技術の延長としてのニューラルネットベースの特徴量の設計と,2)話者性に頑健な認識器の設計を行った. 1. ニューラルネットによる特徴量の再設計としては,音声認識に限らず,情報科学の分野で用いられることの多い距離基準であるバタチャリヤ距離をニューラルネットを用いた識別モデルベースによる拡張を行った.これにより,従来の生成モデルをベースとして用いられていたがために実用上の制約の大きかったこの距離基準を,柔軟に利用することが可能となった.また,これを応用することにより,構造的表象と呼ばれる特徴量の拡張を行った.構造的表象は,音響イベントの関係性のみをモデル化することにより,話者不変性を実現することを目的とする.すなわち,人間は音声の「/あ/」や「/い/」などの絶対的な情報ではなく,相対的な距離,構造によって言語情報を表現,理解しているというものである.これをニューラルネットベースの距離基準で表現することにより,従来困難であった,発話の中に含まれていない音響イベント間の距離も推定することが可能となった. 2. 話者性に頑健な認識器の設計では,話者コードと呼ばれる話者の情報を表現するベクトルを効率的に学習する手法を提案し,これにより話者の違いを柔軟に吸収することが可能となった.話者コードはニューラルネット音響モデルの適応手法の一つであるが,その性質上,話者に依存/非依存部の同時学習が困難であった.そこで,話者コードをダミーのノードからのネットワークの出力として再定義することで,話者依存/非依存部を効率的に同時に学習することが可能となった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定では,ニューラルネットの構造の自動決定の研究を行う予定であったが,これは,先行研究により構造決定は直近のクリティカルな課題ではないと判断したためである.そのため,方向を修正し,音響モデルの話者適応を通してニューラルネットの制御に重点を置いて研究をおこなった.これは,従来の要素技術をニューラルネットにいかに適用するかという本研究の方針から逸脱はしておらず,今後の研究計画においても大きく方針転換する必要はないと考えている.そのため,研究課題の達成度としては概ね予定通りと述べて差し障りない.
|
Strategy for Future Research Activity |
今後,ニューラルネット音響モデルと特徴量の統合的な最適化を行う.具体的にはニューラルネットにより拡張した構造的表象を特徴量としてニューラルネット音響モデルの話者性の制御を行う.既に実験的に従来主流であったI-vectorなどの話者性を表現する特徴量に加えてニューラルネットにより計算した構造的表象を導入することでより良い結果が得られることがわかっている.この構造的表象と後段の音響モデルはどちらもニューラルネットで構築した場合,これらを統合的に最適化することが可能となる. また,並行してニューラルネットを利用した話者性の表現を様々な分野に応用する.これは,音声認識に限らない.例えば,話者識別,言語学習,音声合成等が考えられる.我々のグループはこれらの要素技術のノウハウを既に保持しているため,困難ではないと考える.これに伴い,今後さらに大規模な計算資源が必要となる見込みである.そこで,計算機を増強することでこれに対応する.
|