本研究は,様々なデータを結びつけ多視点的な分析を可能にすることで,データから知見を得るためのシステムを構築するための技術を開発するものである. まず,関連性の記述されたデータ (Linked Open Data; LOD) から要求する知識を検索する技術を開発した.LODは,データ間の関連が複雑なネットワークを構成している.そのため,検索時には,検索者はデータの複雑な関連性に関する知識を有する必要がある.これに対し,開発した技術では,キーワード検索を実現することでこの問題に対処した.加えて,LOD で関連付けられた構造化文書を LOD に対する検索と併せて検索できるようにするための問合せ言語を提案し,問合せを効率化する方法について提案し,その有効性を示した. 次に,様々なデータを結びつける際の接続性判定において,データの不均衡性が問題となる.データの不均衡性とは,分類器学習時の正例と負例の数が不均衡である状態を指す.この不均衡性は分類性能を低下させることが知られている.これに対し,本研究では,アンダーサンプリングを元にしたアンサンブル手法を提案し,既存手法より高性能に分類できることを示した. また,データをより細かい粒度で関連性を発見する手法を構築した.特に,文書データについて,ある文書の部分文書が他の文書の部分文書と関連していることを検出する技術を開発した.この技術では,文書が持つ構造(木構造)のうちどの部分構造対が関連しているかを末端からボトムアップ方式で判別していくことで実現した.
|