2003 Fiscal Year Annual Research Report
テキスト文書のクラスタ指向インデクシングに関する研究
Project/Area Number |
15500081
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
|
Keywords | テキストマイニング / 統計的言語処理 / 文書クラスタリング / 情報検索 / 情報量尺度 / 複合語抽出 |
Research Abstract |
本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案する。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して明らかにする。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを検討する。また、利用者コミュニティを「用語辞書」でモデル化し、登録語の近傍領域での局所的なクラスタリングを繰り返すことによって、コミュニティに特化したインデクシングを提供するモデルの提案と実証を行う。 研究初年度にあたる本年度では、以下を中心に検討を進めた。 1.共起統計に基づくクラスタリング手法の検討 局所的なクラスタリングの適用により任意に重なり合う関連文書や関連語のグループ(=「基本(マイクロ)クラスタ」)を生成する手法を提案し、新聞記事を中心とするテキストコーパスに適用して効果を調べた。 2.テキストの再現性に基づくクラスタリング手法の検討 反復単語列に基づく高速クラスタリング法について検討し、クラスタリングのためのプログラム実装を行った。また、実際にクラスタの抽出を行い、新聞記事、学術文献、Web文書、書誌データベース等、各種の形態の電子テキストを分析、著者性やコミュニティ度の数量化について考察した。 次年度では、上記(a)(b)等よる基本クラスタによるインデクシング機能の強化について検討を進め、検索システムの試作を行う。また、本年度検討した手法を、実際に、Web情報検索の評価用コレクションであるTRFC-WEB(英文)やNTCIR-WEB(日本語中心)に適用して有効性を評価し、今後の研究の方向性を探る。
|
Research Products
(6 results)
-
[Publications] Akiko Aizawa: "Analysis of Source Identified Text Corpora : Exploring the Statistics of the Reused Text and the Authorship"Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL-03). 383-390 (2003)
-
[Publications] 相澤彰子: "低頻度後の利用によるテキストの分類性能の改善と評価"情報処理学会論文誌. 44,7. 1720-1730 (2003)
-
[Publications] 相澤彰子: "テキストからの再利用文字列の抽出と分析"情報処理学会研究報告2003-FI-71. 189-196 (2003)
-
[Publications] 相澤彰子: "発信者情報が付与されたテキストコーパスの分析について"2003年度人工知能学会全国大会予稿集,1C5-05. (2003)
-
[Publications] 中渡瀬秀一, 相澤彰子: "完全N部グラフ構造を用いた単語の多義性獲得"電子情報通信学会研究技術報告(人工知能と知識処理). 103. 7-23 (2003)
-
[Publications] Hidekazu Nakawatase, Akiko Aizawa: "Discovering Homographs using N-partite Graph Clustering"Proceedings of the 6th International Conference on Discovery Science (DS'03). 402-409 (2003)