研究課題/領域番号 |
17K00434
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
山口 敦子 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (10346108)
|
研究分担者 |
小林 紀郎 国立研究開発法人理化学研究所, 情報基盤センター, 上級センター研究員 (20415160)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | RDF / 連合検索 / SPARQL / 生命科学データベース / リンクトオープンデータ |
研究実績の概要 |
概念間関係にもとづく連合検索において,どの SPARQL エンドポイントに問い合わせを行うべきか(ソース選択)を計算する基盤として,各データベースから意味的つながりを記載したメタデータをあらかじめ抽出し,共通概念を重ね合わせて頂点とし,概念間のつながりを辺とするグラフ(連合クラスグラフ)を構築した.さらに,連合クラスグラフを用いたソース選択を評価できるよう,連合クラスグラフ上の概念間パスからソースが選択されたSPARQLクエリを出力するウェブAPIを実装した. また,連合クラスグラフを用いた効率のよい手法を設計する前準備として,連合クラスグラフの構造について解析を試みた.その結果,(1)グラフの連結成分の大きさはべき乗測に従い,最大の連結成分および二つ目の大きさの連結成分においてのみSPARQLエンドポイントにまたがった検索が可能,(2)大きさ上位二つの連結成分は単連結であり,切断頂点に相当する概念は,生命科学分野における比較的上位概念である,の二点を示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
検索対象として,43のSPARQLエンドポイントを利用し,76のデータセットについてをメタデータを取得した.一部の巨大なデータセットについて,SPARQLエンドポイントでのクエリのタイムアウトにより,メタデータの完全な取得には至らないものがあるものの,多くのデータセットについて問題なく取得し,それらを用いたソース選択システムを作成することが可能となった. 中間結果の推定については,データの構造解析は連合クラスグラフの解析により滞りなく進めることができた.一方,統計情報については,SPARQLエンドポイントによっては結果が正しく戻ってこないことがあるなどの理由で,正確に取り切れていない部分があるため,多少の遅れが生じている.
|
今後の研究の推進方策 |
次年度については,基本的には研究計画の内容を行う.今年度対応が困難であった一部の巨大なデータセットについては,データのダウンロードなど,データプロバイダが提供する他の手段を用いて,メタデータの取得を試みる.また,今年度の連合クラスグラフ解析により,他のクラスとつながりをもたない孤立クラスが多く発生していることが分かったため,これらをまとめる上位クラスを記述できるよう,メタデータの改良を行う.
|
次年度使用額が生じた理由 |
国際会議に参加して情報収集を行う予定であったが,次年度以降での参加に計画を変更したため.
|