2004 年度実績報告書

テキスト文書のクラスタ指向インデクシングに関する研究

研究課題

研究課題/領域番号	15500081
研究機関	国立情報学研究所
研究代表者	相澤彰子情報・システム研究機構国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
キーワード	テキストマイニング / 統計的言語処理 / 文書クラスタリング / 情報検索 / 情報量尺度 / 複合語抽出
研究概要	本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案する。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを研究し、これらを資源として利用する検索システムを検討・試作する。本年度では、以下を中心に検討を進めた。 1.クラスタ指向検索システムの検討あらかじめクラスタリングされた文書集合を用いて検索結果を再ランキングする検索システムを試作し、Web情報検索の評価用コレクションであるTREC-WEB(英文)やNTCIR Test Collection I(日本語中心)等に適用した。再ランキング時のスコア計算法を統計的なモデルに基づき検討するとともに、クラスタリング時に特定の専門分野にかかわる辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。 2.Nグラムに基づく高速クラスタリング法を利用した同一エンティティ候補抽出法の検討単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、実際に文献書誌および図書データベースに適用して有効性を調べた。本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。

研究成果
(5件)

すべて 2005 2004

すべて雑誌論文 (5件)

[雑誌論文] レコード同定問題に関する研究の課題と現状2005
- 著者名/発表者名
  相澤彰子, 大山敬三, 高須淳宏, 安達淳
- 雑誌名
  
  電子情報通信学会論文誌、DI VOL.J88-D1 No.3
  
  ページ: 576-589
[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005
- 著者名/発表者名
  Aiko Aizawa, Keizo Oyama
- 雑誌名
  
  WIRI2005 (International Workshop on Challenges in Web Information Retrieval and Integration)
[雑誌論文] 複数書誌データベース統合における重複エントリーの高速検出法2004
- 著者名/発表者名
  相澤彰子, 大山敬三, 高須淳宏, 安達淳
- 雑誌名
  
  情報処理学会研究報告.DBS,データベース・システム Vol.2004 Num.45
  
  ページ: 111-118
[雑誌論文] クラスタ指向インデクシングに関する一検討2004
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報処理学会研究報告.NL,自然言語処理 No.159-007
  
  ページ: 159-007
[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報管理 vol.47, no.6
  
  ページ: 401-409

2004 年度 実績報告書

テキスト文書のクラスタ指向インデクシングに関する研究

研究代表者

相澤 彰子 情報・システム研究機構 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)

研究成果

[雑誌論文] レコード同定問題に関する研究の課題と現状2005

著者名/発表者名

雑誌名

[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005

著者名/発表者名

雑誌名

[雑誌論文] 複数書誌データベース統合における重複エントリーの高速検出法2004

著者名/発表者名

雑誌名

[雑誌論文] クラスタ指向インデクシングに関する一検討2004

著者名/発表者名

雑誌名

[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004

著者名/発表者名

雑誌名

2004 年度実績報告書

相澤彰子情報・システム研究機構国立情報学研究所, 情報学資源研究センター, 教授 (90222447)