本研究は、インターネット上で公開される各種テキストや個人・組織が管理する文書を対象として、関連する情報を結び付ける「情報リンケージ」プラットフォームの実現を目的とする。平成21年度は、情報リンケージプラットフォームの要素技術となる下記の研究に取り組んだ。 1. 語彙マッチングに基づいたレコードリンケージ 単語列やレコードで表されたデータ対が与えられときに、単語の対応付けを行うとともに、その結果に基づいた単語列対の類似度を計算し、そのペアが同じ実体を表しているかどうかを判定する方法を提案した。提案手法はCRFと呼ばれる確率モデルに基づいたシーケンス解析技術を拡張したもので、先行研究と比較して良好なマッチング精度を得ることができた。 2. 類似検索索引の研究 汎用的な類似検索索引法として、メトリック空間上の効率の良い索引法を考案した。この手法は、空間上のクラスタ境界面の幅(マージン)を最大化することによって効果的な空間分割を行うもので、既存手法と比較し、検索処理時間を2/3程度に削減できることを示した。 3. 高速な木類似度計算手法の開発 昨年度に引き続き、木の類似度を高速に計算するアルゴリズムの研究を行った。今年度はNP困難な問題である無順序木の編集距離を多項式時間で近似検索するアルゴリズムを開発した。 4. アカデミックリンケージシステムの構築と実証 本年度は、対象を書誌から著者に拡張し、大規模な著者同定を実現するための要素技術の検討とシステムの設計を行った。具体的には、候補検索モジュールと同定モジュールを組み合わせて、さらにグラフ構造に基づくクラスタリングを行うラベリングモジュール、クリーニングおよび情報同定を行う情報統合モジュールを組み合わせたシステムを実装し、実際に数千万人規模の著者同定を行って実用性を確認した。
|