2017 Fiscal Year Research-status Report
生命科学データの分散知識統合基盤に資する安定かつ高速な連合検索
Project/Area Number |
17K00434
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
山口 敦子 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (10346108)
|
Co-Investigator(Kenkyū-buntansha) |
小林 紀郎 国立研究開発法人理化学研究所, 情報基盤センター, 上級センター研究員 (20415160)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | RDF / 連合検索 / SPARQL / 生命科学データベース / リンクトオープンデータ |
Outline of Annual Research Achievements |
概念間関係にもとづく連合検索において,どの SPARQL エンドポイントに問い合わせを行うべきか(ソース選択)を計算する基盤として,各データベースから意味的つながりを記載したメタデータをあらかじめ抽出し,共通概念を重ね合わせて頂点とし,概念間のつながりを辺とするグラフ(連合クラスグラフ)を構築した.さらに,連合クラスグラフを用いたソース選択を評価できるよう,連合クラスグラフ上の概念間パスからソースが選択されたSPARQLクエリを出力するウェブAPIを実装した. また,連合クラスグラフを用いた効率のよい手法を設計する前準備として,連合クラスグラフの構造について解析を試みた.その結果,(1)グラフの連結成分の大きさはべき乗測に従い,最大の連結成分および二つ目の大きさの連結成分においてのみSPARQLエンドポイントにまたがった検索が可能,(2)大きさ上位二つの連結成分は単連結であり,切断頂点に相当する概念は,生命科学分野における比較的上位概念である,の二点を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
検索対象として,43のSPARQLエンドポイントを利用し,76のデータセットについてをメタデータを取得した.一部の巨大なデータセットについて,SPARQLエンドポイントでのクエリのタイムアウトにより,メタデータの完全な取得には至らないものがあるものの,多くのデータセットについて問題なく取得し,それらを用いたソース選択システムを作成することが可能となった. 中間結果の推定については,データの構造解析は連合クラスグラフの解析により滞りなく進めることができた.一方,統計情報については,SPARQLエンドポイントによっては結果が正しく戻ってこないことがあるなどの理由で,正確に取り切れていない部分があるため,多少の遅れが生じている.
|
Strategy for Future Research Activity |
次年度については,基本的には研究計画の内容を行う.今年度対応が困難であった一部の巨大なデータセットについては,データのダウンロードなど,データプロバイダが提供する他の手段を用いて,メタデータの取得を試みる.また,今年度の連合クラスグラフ解析により,他のクラスとつながりをもたない孤立クラスが多く発生していることが分かったため,これらをまとめる上位クラスを記述できるよう,メタデータの改良を行う.
|
Causes of Carryover |
国際会議に参加して情報収集を行う予定であったが,次年度以降での参加に計画を変更したため.
|