テキスト文書のクラスタ指向インデクシングに関する研究

研究課題

研究課題/領域番号	15500081
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	メディア情報学・データベース
研究機関	国立情報学研究所
研究代表者	相澤彰子国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
研究期間 (年度)	2003 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	3,500千円 (直接経費: 3,500千円) 2004年度: 1,700千円 (直接経費: 1,700千円) 2003年度: 1,800千円 (直接経費: 1,800千円)
キーワード	テキストマイニング / 統計的言語処理 / 文書クラスタリング / 情報検索 / 情報量尺度 / 複合語抽出
研究概要	本研究では、テキストの形式の電子文書を対象に、互いに結びつきの強い情報をグループ化して、インデクシング資源としてシステムに蓄積する「クラスタ指向インデクシング」の枠組を提案した。また、このような枠組の適用により、大規模・不均一なデータに対する検索機能が強化できることを、実データへの適用を通して検証する。具体的には、インデクシング資源を自動生成するためのクラスタリング技術として、(i)共起統計と相互情報量に基づく多属性同時クラスタリング法、(ii)テキスト再現性と無限長単語Nグラムに基づく高速クラスタリング法、の2つを検討し、以下の研究を行った。 1.共起統計に基づくクラスタリング手法の検討局所的なクラスタリングの適用により任意に重なり合う関連文書や関連語のグループを生成する手法を提案し、新聞記事を中心とするテキストコーパスに適用して効果を調べた。 2.テキストの再現性に基づくクラスタリング手法の検討反復単語列に基づく高速クラスタリング法について検討し、クラスタリングのためのプログラム実装を行った。また、実際にクラスタの抽出を行い、著者性やコミュニティ度の数量化について考察した。 3.クラスタ指向検索システムの検討クラスタリングにより検索結果を再ランキングする検索システムを試作し、特定の専門分野辞書を用いることにより、利用者の興味がランキング結果に反映されることを示した。 4.Nグラムに基づく高速クラスタリング法を用いて、同一エンティティ候補抽出法の検討単語Nグラムに基づく高速クラスタリング法を用いて、同一のエンティティを参照するデータベースレコード候補を高速抽出する手法を提案し、有効性を調べた。本研究で得られた知見に基づき、今後は、インデックス作成時に不可欠な辞書項目自動抽出のための言語処理手法の検討、および、Webに代表されるテキストどうしの共参照エンティティ抽出手法について検討を行う予定である。

報告書

(3件)

2004 実績報告書研究成果報告書概要
2003 実績報告書

研究成果
(27件)

すべて 2005 2004 2003 その他

すべて雑誌論文 (21件) 文献書誌 (6件)

[雑誌論文] レコード同定問題に関する研究の課題と現状2005
- 著者名/発表者名
  相澤彰子, 大山敬三, 高須淳宏, 安達淳
- 雑誌名
  
  電子情報通信学会論文誌、D1 VOL.J88-D1 No.3
  
  ページ: 576-589
- NAID
  110003207354
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005
- 著者名/発表者名
  Akiko Aizawa, Keizo Oyama
- 雑誌名
  
  WIRI2005 (International Workshop on Challenges in Web Information Retrieval and Integration)
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Techniques and Research Trends in Record Linkage Studies2005
- 著者名/発表者名
  Akiko Aizawa, Atsuhiro Takasu, Keizo Oyama, Jun Adachi
- 雑誌名
  
  Journal of IEICE Vol.J88-D1 No.3(in Japanese)
  
  ページ: 576-589
- NAID
  110003207354
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005
- 著者名/発表者名
  Akiko Aizawa, Keizo Oyama
- 雑誌名
  
  WIRI2005 (International Workshop on Challenges in Web Information Retrieval, Integration)
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] レコード同定問題に関する研究の課題と現状2005
- 著者名/発表者名
  相澤彰子, 大山敬三, 高須淳宏, 安達淳
- 雑誌名
  
  電子情報通信学会論文誌、DI VOL.J88-D1 No.3
  
  ページ: 576-589
- NAID
  110003207354
- 関連する報告書
  2004 実績報告書
[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005
- 著者名/発表者名
  Aiko Aizawa, Keizo Oyama
- 雑誌名
  
  WIRI2005 (International Workshop on Challenges in Web Information Retrieval and Integration)
- 関連する報告書
  2004 実績報告書
[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報管理 Vol.47, no.6
  
  ページ: 401-409
- NAID
  130000072076
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Record Linkage of Multi-source Databases: ResearchTrends2004
- 著者名/発表者名
  Akiko Aizawa, Atsuhiro Takasu, Keizo Oyama, Jun Adachi
- 雑誌名
  
  NII Journal(in Japanese) No.8
  
  ページ: 43-51
- NAID
  110001276082
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] An Approach to Automatic Generation of Multi-lingual Synonymous Terms Dictionary using Japanese-English Bilingual Author's Keywords2004
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  Journal of Information Processing and Management(in Japanese) Vol.47 no.6
  
  ページ: 401-409
- NAID
  130000072076
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] A Fast Method fo Duplicated Entries Detection in Bibliographic Databases2004
- 著者名/発表者名
  Akiko Aizawa, Atsuhiro Takasu, Keizo Oyama, Jun Adachi
- 雑誌名
  
  IPSJ SIG Notes, DBS(in Japanese) Vol.2004 No.45
  
  ページ: 111-118
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] An Approach to Cluster-based Indexing2004
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  IPSJ SIG Notes, NL(in Japanese) 159-007
  
  ページ: 159-7
- NAID
  110002911663
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 複数書誌データベース統合における重複エントリーの高速検出法2004
- 著者名/発表者名
  相澤彰子, 大山敬三, 高須淳宏, 安達淳
- 雑誌名
  
  情報処理学会研究報告.DBS,データベース・システム Vol.2004 Num.45
  
  ページ: 111-118
- NAID
  110002911297
- 関連する報告書
  2004 実績報告書
[雑誌論文] クラスタ指向インデクシングに関する一検討2004
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報処理学会研究報告.NL,自然言語処理 No.159-007
  
  ページ: 159-7
- NAID
  110002911663
- 関連する報告書
  2004 実績報告書
[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報管理 vol.47, no.6
  
  ページ: 401-409
- NAID
  130000072076
- 関連する報告書
  2004 実績報告書
[雑誌論文] Analysis of Source Identified Text Corpora : Exploring the Statistics of the Reused Text and Authorship2003
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL-03)
  
  ページ: 383-390
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] 低頻度語の利用によるテキストの分類性能の改善と評価2003
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  情報処理学会論文誌 44,7
  
  ページ: 1720-1730
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Discovering Homographs using N-partite Graph Clustering2003
- 著者名/発表者名
  Hidekazu Nakawatase, Akiko Aizawa
- 雑誌名
  
  Proceedings of the 6th International Conference on Discovery Science (DS'03)
  
  ページ: 402-409
- 説明
  「研究成果報告書概要(和文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Improving the Performance of Text Categorization Using Low Frequency Terms2003
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  Journal of InformationProcessing Society of Japan(in Japanese)
  
  ページ: 1720-1730
- NAID
  110002711767
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Extracting and Analyzing Recycled Word Sentences from Text2003
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  IPSJ SIG Notes, FI 2003-FI-71
  
  ページ: 189-196
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] On the Analysis of Source Identified Text Corpora2003
- 著者名/発表者名
  Akiko Aizawa
- 雑誌名
  
  the 17th Annual Conference of the Japanese Society for Artificial Intelligence(in Japanese) 1C5-05
- NAID
  40020007253
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[雑誌論文] Word Sense Discrimination based on Complete N-partite Graph2003
- 著者名/発表者名
  Hidekazu Nakawatase, Akiko Aizawa
- 雑誌名
  
  Technical Report of IEICE AI2003-2(in Japanese) 103
  
  ページ: 7-23
- NAID
  110003176886
- 説明
  「研究成果報告書概要(欧文)」より
- 関連する報告書
  2004 研究成果報告書概要
[文献書誌] Akiko Aizawa: "Analysis of Source Identified Text Corpora : Exploring the Statistics of the Reused Text and the Authorship"Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL-03). 383-390 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 相澤彰子: "低頻度後の利用によるテキストの分類性能の改善と評価"情報処理学会論文誌. 44,7. 1720-1730 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 相澤彰子: "テキストからの再利用文字列の抽出と分析"情報処理学会研究報告2003-FI-71. 189-196 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 相澤彰子: "発信者情報が付与されたテキストコーパスの分析について"2003年度人工知能学会全国大会予稿集,1C5-05. (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] 中渡瀬秀一, 相澤彰子: "完全N部グラフ構造を用いた単語の多義性獲得"電子情報通信学会研究技術報告(人工知能と知識処理). 103. 7-23 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hidekazu Nakawatase, Akiko Aizawa: "Discovering Homographs using N-partite Graph Clustering"Proceedings of the 6th International Conference on Discovery Science (DS'03). 402-409 (2003)
- 関連する報告書
  2003 実績報告書

テキスト文書のクラスタ指向インデクシングに関する研究

研究代表者

相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)

3,500千円 (直接経費: 3,500千円)

報告書

研究成果

[雑誌論文] レコード同定問題に関する研究の課題と現状2005

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] Techniques and Research Trends in Record Linkage Studies2005

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] レコード同定問題に関する研究の課題と現状2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] Record Linkage of Multi-source Databases: ResearchTrends2004

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] An Approach to Automatic Generation of Multi-lingual Synonymous Terms Dictionary using Japanese-English Bilingual Author's Keywords2004

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] A Fast Method fo Duplicated Entries Detection in Bibliographic Databases2004

著者名/発表者名

雑誌名

説明

関連する報告書

[雑誌論文] An Approach to Cluster-based Indexing2004

著者名/発表者名

雑誌名

NAID

説明

関連する報告書

[雑誌論文] 複数書誌データベース統合における重複エントリーの高速検出法2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] クラスタ指向インデクシングに関する一検討2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 和英著者キーワードからの多言語類語辞書自動構築の試み2004

著者名/発表者名

雑誌名

NAID

相澤彰子国立情報学研究所, 情報学資源研究センター, 教授 (90222447)