研究課題
本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案する。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを研究し、これらを資源として利用する検索システムを検討・試作する。本年度では、以下を中心に検討を進めた。1.クラスタ指向検索システムの検討あらかじめクラスタリングされた文書集合を用いて検索結果を再ランキングする検索システムを試作し、Web情報検索の評価用コレクションであるTREC-WEB(英文)やNTCIR Test Collection I(日本語中心)等に適用した。再ランキング時のスコア計算法を統計的なモデルに基づき検討するとともに、クラスタリング時に特定の専門分野にかかわる辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。2.Nグラムに基づく高速クラスタリング法を利用した同一エンティティ候補抽出法の検討単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、実際に文献書誌および図書データベースに適用して有効性を調べた。本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。
すべて 2005 2004
すべて 雑誌論文 (5件)
電子情報通信学会論文誌、DI VOL.J88-D1 No.3
ページ: 576-589
WIRI2005 (International Workshop on Challenges in Web Information Retrieval and Integration)
情報処理学会研究報告.DBS,データベース・システム Vol.2004 Num.45
ページ: 111-118
情報処理学会研究報告.NL,自然言語処理 No.159-007
ページ: 159-007
情報管理 vol.47, no.6
ページ: 401-409