2011 Fiscal Year Annual Research Report
音声ドキュメントの高精度認識と整形・要約および高速・高精度音声検索に関する研究
Project/Area Number |
22300059
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
中川 聖一 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公 豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
土屋 雅稔 豊橋技術科学大学, 学内共同利用施設等(情報メディア基盤センター), 助教 (70378256)
|
Keywords | 音声認識 / GMM / HMM / DNN / HCNF / 音節トライグラム / 音声検索語検索 / 音声ドキュメント |
Research Abstract |
H23年度は、音声認識の高精度化と音声ドキュメントからの検索語の高速・高精度検索法の研究を行った。まず、音声認識の高精度化に関しては、従来の世界的な標準手法であるメルケプストラム係数の混合正規分布(GMM)による特徴パラメータのモデルと隠れマルコフモデル(HMM)による音響モデルのGMM-HMMに代えて、多層ニューラルネットワーク(DNN)による特徴抽出・事後確率計算と隠れニューラル確率場を音響モデルとして用いるDNN-HCNFを提案した。これは、従来のGMM-HMMを包含する強力な枠組みであり、これによって、従来の音声認識率を向上させることが出来た。例えば、日本語音声認識の標準テストデータである新聞読み上げ音声に対して、現在、最も良いとされている世界標準のトライフォンに基づくGMM-HMMの識別学習モデルを用いて、音素誤り認識率が12.4%であったのが、提案手法により12.1%に改善できた。英語音素認識に対しても、音素誤り認識率を27.6%から24.3%に改善出来た。 音声ドキュメントからの検索語の検出に関しては、従来から我々が提案している音節のトライグラムインデックスに基づく手法を改善した。すなわち、音節列間のマッチングにおける置換誤り・挿入誤り・脱落誤りの距離の厳密化を行った。これらの誤りは、音声認識で避けられないものである。特に、置換誤り対策用に導入したダミー音節と検索語の音節との距離の定義を厳密化した。これにより、検索精度が向上し、ベースラインである音節列同士のDPマッチングによる手法の精度を上回ることが出来た。また、検索速度は、DPマッチング法の約50倍の速度を達成した。インデックスのメモリ量が多いのが難点であるが、音節認識結果の候補数を削減することで、メモリ量も削減することができることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音声認識、整形、検索に関して、すべて目標以上に進んだと言える。まず、音声認識では、従来の世界的標準に代わる手法として提案したDNN-HCNFは、研究者間で、既に高く評価されている。多層ニューラルネットワークは、世界的にその有用性は認められているが、我が国でいち早く実証した。また、HCNFは、HMMを越える手法として世界的に注目されているHCRFを包含する手法で、将来性のある認識モデルである。評価実験でも、英語と日本語の音素認識率において、従来法を上回る結果を得た。 認識結果の整形に関しては、確率モデルで統一的に整形する手法を提案した。これも時流に沿った枠組みで、代表的な手法になりうるものである。ただ、データ不足もあり、確率モデルの一部は、具体的なパラメータ推定は手つかずで、ヒューリステイックに手動で与えていて稼動させている状況である。 音声検索に関しては、順調に成果が得られた。既に、我々の研究に触発された手法が提案されてきている。従来の我々の提案手法の音節間距離を厳密化・改善することにより、ベースラインの音節列同士のDPマッチング手法を上回る性能を得たことは、大きな成果である。ただ、インデックスサイズが大きいこと、検索速度が厳密化・改善する前よりも、遅くなったことが欠点として挙げられる。
|
Strategy for Future Research Activity |
音声要約に関しては、要約システムの改善を続けてきて、一応重要文抽出による要約については、完成している。人間による重要文抽出と遜色ない結果が得られている。 音声認識に関しては、我々が提案しているDNN-NCNFの継続研究を行う必要がある。 第一は、大語彙連続音声認識に適用できるように拡張することである。これは、重み付き有限状態変換器に基づく音声認識デコーダを開発しているので、これで実装する予定である。第二は、種々のデータベースに対して、本提案手法の有効性を評価することである。 音声ドキュメントに対する音声検索については、音節認識結果のトライグラムをインデクスにしていたのを、バイグラムおよびユニグラムのインデックスにも拡張し、任意長の検索語に対して、トライグラム、バイグラム、ユニグラムの併用で検索でききるように改善する必要がある。また、検索語をタイプ(テキスト)で入力していたのを、音声で入力できるように拡張する必要がある。
|
Research Products
(11 results)