2010 Fiscal Year Annual Research Report
音声処理と言語処理の融合に基づく大規模音声ドキュメントの内容検索
Project/Area Number |
22500090
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
秋葉 友良 豊橋技術科学大学, 大学院・工学研究科, 准教授 (00356346)
|
Co-Investigator(Kenkyū-buntansha) |
中川 聖一 豊橋技術科学大学, 大学院・工学研究科, 教授 (20115893)
|
Keywords | 音声ドキュメント / 検索 / Spoken Term Detection / 索引付け / 適合性モデル / パッセージ検索 / クエリ拡張 / 音声認識 |
Research Abstract |
音声ドキュメントを対象とした検索について、検索語が音声データ中のどこに現れたかを検出る検索語検出タスク(Spoken Term Detection)と、検索要求に合致する音声区間を特定する音声内容検索タスク(Spoken Document Retrieval)の2つの問題を設定し、それぞれ手法の開発を進めた。 検索語検出タスクについて、新しい索引付け手法であるMetric Subspace Indexing法を開発した。本手法は、画像中の直線検出手法であるハフ変換を検索語検出タスクに適用した方法である。オンライン処理を前提とした画像処理と異なり、音声ドキュメントを対象とする場合は検出処理前にドキュメントが既知であるために、オフラインでの効率的な索引付けができる点に着目し、高速な検出法を実現した。従来の索引付け法と異なり、尤もらしい候補順に結果を出力できる点、認識結果に現れる複数代替候補を直接扱うことができる点、が大きな特徴である。 音声内容検索タスクについて、パッセージ検索手法の開発および言語モデルに基づく検索手法の適用を行った。音声認識結果に対する検索は、誤認識の影響を受けるため、検索クエリや対象文書を関連語で補完する手法が有効と考え、適合性モデルをパッセージ検索に適用した。また、Webの関連文書を利用するように適合性モデルの拡張を行った。 また、2つのタスクを統合して音声ドキュメント検索を行うための予備調査を行った。統合手法は、まず検索クエリから検索語を抽出し、対象音声ドキュメントに対して音声検索語検出を行う。次に、この検出結果を語の出現と見て、文書検索を実行する。本手法を講演の検索タスクに適用したところ、高速なサブワード認識結果を使っているのにも係らず、従来の大語彙連続音声認識とテキスト検索を組み合わせる手法の検索性能を改善できることが分かった。
|