2011 Fiscal Year Annual Research Report

音声ドキュメントの高精度認識と整形・要約および高速・高精度音声検索に関する研究

Research Project

Project/Area Number	22300059
Research Institution	Toyohashi University of Technology
Principal Investigator	中川聖一豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)
Co-Investigator(Kenkyū-buntansha)	秋葉友良豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346) 山本一公豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230) 土屋雅稔豊橋技術科学大学, 学内共同利用施設等(情報メディア基盤センター), 助教 (70378256)
Keywords	音声認識 / ＧＭＭ / ＨＭＭ / ＤＮＮ / ＨＣＮＦ / 音節トライグラム / 音声検索語検索 / 音声ドキュメント
Research Abstract	H23年度は、音声認識の高精度化と音声ドキュメントからの検索語の高速・高精度検索法の研究を行った。まず、音声認識の高精度化に関しては、従来の世界的な標準手法であるメルケプストラム係数の混合正規分布(GMM)による特徴パラメータのモデルと隠れマルコフモデル(HMM)による音響モデルのGMM-HMMに代えて、多層ニューラルネットワーク(DNN)による特徴抽出・事後確率計算と隠れニューラル確率場を音響モデルとして用いるDNN-HCNFを提案した。これは、従来のGMM-HMMを包含する強力な枠組みであり、これによって、従来の音声認識率を向上させることが出来た。例えば、日本語音声認識の標準テストデータである新聞読み上げ音声に対して、現在、最も良いとされている世界標準のトライフォンに基づくGMM-HMMの識別学習モデルを用いて、音素誤り認識率が12.4％であったのが、提案手法により12.1％に改善できた。英語音素認識に対しても、音素誤り認識率を27.6％から24.3％に改善出来た。音声ドキュメントからの検索語の検出に関しては、従来から我々が提案している音節のトライグラムインデックスに基づく手法を改善した。すなわち、音節列間のマッチングにおける置換誤り・挿入誤り・脱落誤りの距離の厳密化を行った。これらの誤りは、音声認識で避けられないものである。特に、置換誤り対策用に導入したダミー音節と検索語の音節との距離の定義を厳密化した。これにより、検索精度が向上し、ベースラインである音節列同士のDPマッチングによる手法の精度を上回ることが出来た。また、検索速度は、DPマッチング法の約50倍の速度を達成した。インデックスのメモリ量が多いのが難点であるが、音節認識結果の候補数を削減することで、メモリ量も削減することができることを示した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音声認識、整形、検索に関して、すべて目標以上に進んだと言える。まず、音声認識では、従来の世界的標準に代わる手法として提案したDNN-HCNFは、研究者間で、既に高く評価されている。多層ニューラルネットワークは、世界的にその有用性は認められているが、我が国でいち早く実証した。また、HCNFは、HMMを越える手法として世界的に注目されているHCRFを包含する手法で、将来性のある認識モデルである。評価実験でも、英語と日本語の音素認識率において、従来法を上回る結果を得た。認識結果の整形に関しては、確率モデルで統一的に整形する手法を提案した。これも時流に沿った枠組みで、代表的な手法になりうるものである。ただ、データ不足もあり、確率モデルの一部は、具体的なパラメータ推定は手つかずで、ヒューリステイックに手動で与えていて稼動させている状況である。音声検索に関しては、順調に成果が得られた。既に、我々の研究に触発された手法が提案されてきている。従来の我々の提案手法の音節間距離を厳密化・改善することにより、ベースラインの音節列同士のDPマッチング手法を上回る性能を得たことは、大きな成果である。ただ、インデックスサイズが大きいこと、検索速度が厳密化・改善する前よりも、遅くなったことが欠点として挙げられる。
Strategy for Future Research Activity	音声要約に関しては、要約システムの改善を続けてきて、一応重要文抽出による要約については、完成している。人間による重要文抽出と遜色ない結果が得られている。音声認識に関しては、我々が提案しているDNN-NCNFの継続研究を行う必要がある。第一は、大語彙連続音声認識に適用できるように拡張することである。これは、重み付き有限状態変換器に基づく音声認識デコーダを開発しているので、これで実装する予定である。第二は、種々のデータベースに対して、本提案手法の有効性を評価することである。音声ドキュメントに対する音声検索については、音節認識結果のトライグラムをインデクスにしていたのを、バイグラムおよびユニグラムのインデックスにも拡張し、任意長の検索語に対して、トライグラム、バイグラム、ユニグラムの併用で検索でききるように改善する必要がある。また、検索語をタイプ（テキスト）で入力していたのを、音声で入力できるように拡張する必要がある。

Research Products
(11 results)

All 2012 2011 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (9 results)

[Journal Article] ポーズを考慮した話し言葉言語モデルの構築2012
- Author(s)
  太田健吾,土屋雅稔,中川聖一
- Journal Title
  
  情報処理学会論文誌
  
  Volume: Vol.53, No.2 Pages: 889-900
- Peer Reviewed
[Journal Article] 部分距離空間上の索引付けに基づく音声中の高速検索語検出法2012
- Author(s)
  金子泰輔、秋葉友良
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: Vol.J95-D, No.3 Pages: 608-617
- Peer Reviewed
[Presentation] Efficient out-of-vocabulary term detection by N-gram array in deices with distance from a syllable lattices2011
- Author(s)
  K. Iwami, Y. Fujii, K. Yamamoto, S. Nakagawa
- Organizer
  Proc. ICASSP, pp.5664-5667
- Place of Presentation
  Prague Congress Center, Prague, Czech Republic
- Year and Date
  20110522-20110527
[Presentation] Automatic speech recognition using hidden conditional neural fields2011
- Author(s)
  Y. Fujii, K. Yamamoto, S. Nakagawa
- Organizer
  Proc.ICASSP, pp.5036-5039
- Place of Presentation
  Prague Congress Center, Prague, Czech Republic
- Year and Date
  20110522-20110527
[Presentation] Deep-hidden conditional neural fields for continuous phoneme speech recognition
- Author(s)
  Y. Fujii, K. Yamamoto, S. Nakagawa
- Organizer
  Proc. Int. Workshop on Statistical Machine Learning for Speech Recognition
- Place of Presentation
  国立京都国際会館（京都府）
[Presentation] Detection of precisely transcribed parts from in exact transcribed corpus
- Author(s)
  K. Ohta, M. Tsuchiya, S. Nakagawa
- Organizer
  Proc. ASRU, pp.541-546
- Place of Presentation
  Hilton Waikoloa Village Resort, Hawaii, USA
[Presentation] High speed spoken term detection by combination of n-gram array of a syllable lattice and LVCSR result for NTCIR-Spoken Doc
- Author(s)
  K. Iwami and S. Nakagawa
- Organizer
  Proc. NTCIR-9, pp.242-248
- Place of Presentation
  学術総合センター（東京都）
[Presentation] Hidden boosted MMI and hierarchical state posterior feature for automatic speech recognition based on hidden conditional neural fields
- Author(s)
  Y. Fujii, K. Yamamoto, S. Nakagawa
- Organizer
  Proc. Interspeech, pp.1001-1004
- Place of Presentation
  Firenze Fiera Congress & Exhibition Center, Florence, Italy
[Presentation] 多階層Hidden Conditional Neural Fields による音声認識手法の提案
- Author(s)
  藤井康寿，山本一公，中川聖一
- Organizer
  日本音響学会 2012年春季研究発表会
- Place of Presentation
  神奈川大学横浜キャンパス
[Presentation] 文レベル情報と複数仮説を用いた音声認識結果の自動整形
- Author(s)
  藤井康寿, 山本一公, 中川聖一
- Organizer
  日本音響学会 2012年春季研究発表会
- Place of Presentation
  神奈川大学横浜キャンパス
[Presentation] 音声ドキュメント検索のための音節ラティスの拡張とn-gram索引の削減手法
- Author(s)
  岩見圭祐，山本一公，中川聖一
- Organizer
  情報処理学会，研究報告音声言語情報処理（SLP）
- Place of Presentation
  芝浦工業大学豊洲キャンパス（東京都）

2011 Fiscal Year Annual Research Report

音声ドキュメントの高精度認識と整形・要約および高速・高精度音声検索に関する研究

Principal Investigator

中川 聖一 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)

Current Status of Research Progress

Reason

Research Products

[Journal Article] ポーズを考慮した話し言葉言語モデルの構築2012

Author(s)

Journal Title

[Journal Article] 部分距離空間上の索引付けに基づく音声中の高速検索語検出法2012

Author(s)

Journal Title

[Presentation] Efficient out-of-vocabulary term detection by N-gram array in deices with distance from a syllable lattices2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Automatic speech recognition using hidden conditional neural fields2011

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Deep-hidden conditional neural fields for continuous phoneme speech recognition

Author(s)

Organizer

Place of Presentation

[Presentation] Detection of precisely transcribed parts from in exact transcribed corpus

Author(s)

Organizer

Place of Presentation

[Presentation] High speed spoken term detection by combination of n-gram array of a syllable lattice and LVCSR result for NTCIR-Spoken Doc

Author(s)

Organizer

Place of Presentation

[Presentation] Hidden boosted MMI and hierarchical state posterior feature for automatic speech recognition based on hidden conditional neural fields

Author(s)

Organizer

Place of Presentation

[Presentation] 多階層Hidden Conditional Neural Fields による音声認識手法の提案

Author(s)

Organizer

Place of Presentation

[Presentation] 文レベル情報と複数仮説を用いた音声認識結果の自動整形

Author(s)

Organizer

Place of Presentation

[Presentation] 音声ドキュメント検索のための音節ラティスの拡張とn-gram索引の削減手法

Author(s)

Organizer

Place of Presentation

中川聖一豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (20115893)