研究概要 |
本研究は,図書館情報大学(図情大)と電子技術総合研究所(電総研)の共同研究である.そこで,今年度(初年度)は,図情大と電総研に均一な計算機環境や研究資源を整備することと,音声対話に基づく情報検索システム開発のための基盤研究を中心に行った.本研究が目的とするシステム開発には,a)利用者が発話した検索要求に対する音声認識技術,b)検索要求を満足する文書情報を取得する検索技術,c)検索を円滑に進めるための音声対話技術,さらに,d)以上の処理に共通して利用する単語辞書の構築が必要である.これらのうち,今年度は,「音声認識」「情報検索」「辞書構築」の3つを中心に行った.音声認識では,認識精度を向上させるための言語モデルを半自動的に構築する手法と,辞書未登録語(未知語)の音韻系列を推定するための手法を提案した.これらによって,既存の音声認識エンジンを検索対象の分野に応じて柔軟に調整(カスタマイズ)することが容易になった.情報検索では,利用者の母国語で書かれた文書だけでなく,外国語情報を幅広く検索するための言語横断検索(cross-language information retrieval)に関する新しい手法を提案し,母国語だけを用いて高い精度で外国語文書を検索できることを実験的に示した.さらに,講演音声文書の検索・要約に関する新しい手法を提案し,文書情報だけでなく音声情報の検索を可能にした.辞書構築では,WorldWide Webから専門用語に関する事典情報を自動的に収集する手法を提案し,既存の単語辞書の網羅性を高めることに成功した.また,Webから収集した事典情報を一種の知識ベースとして利用することで,次年度以降着手する音声対話部分の性能を高めることが期待できる.
|