データベース照合に基づくテキスト・エンティティの同定に関する研究

研究課題

研究課題/領域番号	17650035
研究種目	萌芽研究
配分区分	補助金
研究分野	メディア情報学・データベース
研究機関	国立情報学研究所
研究代表者	相澤彰子国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
研究期間 (年度)	2005
研究課題ステータス	完了 (2005年度)
配分額 *注記	3,500千円 (直接経費: 3,500千円) 2005年度: 3,500千円 (直接経費: 3,500千円)
キーワード	エンティティ同定 / レコードリンケージ / データクリーニング / 大規模データベース / 情報リンケージ / 書誌同定 / データベース統合 / サフィックスアレイ
研究概要	本研究では、テキスト中に出現する特定の「エンティティ」(実世界の実在物)に関する記述を、データベース上で一元的に管理されている「レコード」に対応づけるためのエンティティ同定処理技術を研究した。特に大規模なエンティティ同定問題に特徴的な検討課題として、(i)同定候補の高速な数え上げ手法の提案、(ii)機械学習の効果的な適用、の2点に焦点をあてて検討を行った。ここで、(i)は、何千万という候補に対して1つ1つ同定のための比較関数を適用することは不可能であることから、(ii)は、言語や領域に固有の知識の実装コストを低減し同定システムの汎用性を高めるために、エンティティ同定には必須の要素技術である。これに基づき本研究においては、(i)サフィックスアレイと呼ばれるデータ構造を利用した高速数え上げ処理手法と、(ii)(i)の結果に機械学習を適用することによる同定ルールの自動獲得法および分野に特化した辞書の自動生成手法を提案した。また、論文データベースおよび図書目録を対象として、実際に数百〜数千万レコード規模のデータベースに提案手法を適用して、異なるデータベース間の統合や引用と書誌データベースの同定問題等における有効性を実証的に示した。当該分野における従来技術は主に、情報検索や機械学習の分野における既存アプローチの応用事例的な色彩が強い。これに対して本研究は、レコードやエンティティの同定問題を、「テキストを現実世界のモノに対応づけるための基盤的な技術」と捉えた点が特徴的であり、今後は適用範囲を広げ、汎用的なテキストのリンケージ技術として発展させたい。

報告書

(1件)

2005 実績報告書

研究成果
(4件)

すべて 2006 2005 その他

すべて雑誌論文 (4件)

[雑誌論文] 大規模異種データベース間でのレコード同定手法とその適用例2006
- 著者名/発表者名
  相澤彰子
- 雑誌名
  
  大規模データ・リンケージ、データマイニングと統計手法予稿集
  
  ページ: 85-90
- 関連する報告書
  2005 実績報告書
[雑誌論文] テキストコーパスからの上下関係抽出2005
- 著者名/発表者名
  中渡瀬秀一, 相澤彰子
- 雑誌名
  
  第4回情報科学技術フォーラム講演論文集
- 関連する報告書
  2005 実績報告書
[雑誌論文] 土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察2005
- 著者名/発表者名
  相澤彰子, 野末道子, 今尚之, 坂本真至, 中渡瀬秀一
- 雑誌名
  
  情報処理学会研究会報告 2005-FI-80
  
  ページ: 131-138
- NAID
  110002952170
- 関連する報告書
  2005 実績報告書
[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration
- 著者名/発表者名
  Akiko Aizawa, Keizo Oyama
- 雑誌名
  
  Proceedings of the International Workshop on Challenges in Web Information Retrieval Retrieval and Integration (WIRI2005)
  
  ページ: 31-40
- 関連する報告書
  2005 実績報告書

データベース照合に基づくテキスト・エンティティの同定に関する研究

研究代表者

相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)

3,500千円 (直接経費: 3,500千円)

報告書

研究成果

[雑誌論文] 大規模異種データベース間でのレコード同定手法とその適用例2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] テキストコーパスからの上下関係抽出2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 土木関連用語辞典の見出し語の分析と検索システムにおける活用に関する考察2005

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A Fast Linkage Detection Scheme for Multi-Source Information Integration

著者名/発表者名

雑誌名

関連する報告書

相澤彰子国立情報学研究所, 情報学資源研究センター, 教授 (90222447)