研究課題/領域番号 |
17K00434
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
山口 敦子 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (10346108)
|
研究分担者 |
小林 紀郎 国立研究開発法人理化学研究所, 情報システム本部, ユニットリーダー (20415160)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 連合検索 / SPARQL / リンクト・オープン・データ |
研究実績の概要 |
本研究では,ウェブ上に分散したSPARQLエンドポイントで提供される生命科学分野のRDFデータ利用を安定かつ高速に行うために,概念間関係をたどるクエリに対する連合検索システムの開発を行った.まず,各データベースから意味的つながりを記載したメタデータをあらかじめ抽出し,共通概念を重ね合わせて頂点とし,概念間のつながりを辺とするグラフ(連合クラスグラフ)を構築した.さらに,連合クラスグラフの構造について解析を行い,その結果を用いて効率の良い連合検索手法を開発した.また,連合検索手法の実用性の評価のため,プロトタイプ実装を行い,タンパク質配列のマルチプルアライメントビューワへ組み込んだ.この組み込みにより,実用上,連合検索により柔軟なデータ取得が可能になることが示された一方,いくつかの課題が示された.そのひとつとして,各SPARQLエンドポイントからのメタデータの取得クローラについては,メタデータの取得クローラはSPARQLクエリを利用して網羅的にメタデータを取得するという手法をとっていたため,実行に時間がかかり,かつSPARQLエンドポイントでデータを提供するサーバに多大な負荷をかけるという問題があった.そこで,標準的語彙で定義されるプロパティ群については,それらの語彙を通じて得られるメタデータを優先的に利用し,その他のプロパティについては従来の手法を用いるという方法で高速化を試みた. さらに,本研究でこれまで開発した,連合クラスグラフ上の概念間パスから連合検索クエリを生成する機能,取得したメタデータを元に概念間パスのクエリを高速に実行する機能などをLOD Surfer APIの一部として組み込み,実行可能な状態で公開した.また,メタデータ取得のためのクローラ,メタデータから連合クラスグラフを構築するプログラム,連合検索機能を含んだLOD Surfer API,全てのソースコードをGitHubより公開した.
|