研究課題
基盤研究(C)
本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案した。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを検討し、以下の研究を行った。1.共起統計に基づくクラスタリング手法の検討局所的なクラスタリングの適用により任意に重なり合う関連文書や関連語のグループを生成する手法を提案し、新聞記事を中心とするテキストコーパスに適用して効果を調べた。2.テキストの再現性に基づくクラスタリング手法の検討反復単語列に基づく高速クラスタリング法について検討し、クラスタリングのためのプログラム実装を行った。また、実際にクラスタの抽出を行い、著者性やコミュニティ度の数量化について考察した。3.クラスタ指向検索システムの検討クラスタリングにより検索結果を再ランキングする検索システムを試作し、特定の専門分野辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。4.Nグラムに基づく高速クラスタリング法を用いて、同一エンティティ候補抽出法の検討単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、有効性を調べた。本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。
すべて 2005 2004 2003
すべて 雑誌論文 (16件)
電子情報通信学会論文誌、D1 VOL.J88-D1 No.3
ページ: 576-589
WIRI2005 (International Workshop on Challenges in Web Information Retrieval and Integration)
Journal of IEICE Vol.J88-D1 No.3(in Japanese)
WIRI2005 (International Workshop on Challenges in Web Information Retrieval, Integration)
情報管理 Vol.47, no.6
ページ: 401-409
NII Journal(in Japanese) No.8
ページ: 43-51
Journal of Information Processing and Management(in Japanese) Vol.47 no.6
IPSJ SIG Notes, DBS(in Japanese) Vol.2004 No.45
ページ: 111-118
IPSJ SIG Notes, NL(in Japanese) 159-007
ページ: 159-007
Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL-03)
ページ: 383-390
情報処理学会論文誌 44,7
ページ: 1720-1730
Proceedings of the 6th International Conference on Discovery Science (DS'03)
ページ: 402-409
Journal of InformationProcessing Society of Japan(in Japanese)
IPSJ SIG Notes, FI 2003-FI-71
ページ: 189-196
the 17th Annual Conference of the Japanese Society for Artificial Intelligence(in Japanese) 1C5-05
Technical Report of IEICE AI2003-2(in Japanese) 103
ページ: 7-23