2004 Fiscal Year Annual Research Report
テキスト文書のクラスタ指向インデクシングに関する研究
Project/Area Number |
15500081
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 情報・システム研究機構 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
Keywords | テキストマイニング / 統計的言語処理 / 文書クラスタリング / 情報検索 / 情報量尺度 / 複合語抽出 |
Research Abstract |
本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案する。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを研究し、これらを資源として利用する検索システムを検討・試作する。本年度では、以下を中心に検討を進めた。 1.クラスタ指向検索システムの検討 あらかじめクラスタリングされた文書集合を用いて検索結果を再ランキングする検索システムを試作し、Web情報検索の評価用コレクションであるTREC-WEB(英文)やNTCIR Test Collection I(日本語中心)等に適用した。再ランキング時のスコア計算法を統計的なモデルに基づき検討するとともに、クラスタリング時に特定の専門分野にかかわる辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。 2.Nグラムに基づく高速クラスタリング法を利用した同一エンティティ候補抽出法の検討 単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、実際に文献書誌および図書データベースに適用して有効性を調べた。 本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。
|
Research Products
(5 results)