2017 Fiscal Year Research-status Report
Development of novel directory function for efficient integration and retrieval of life science distributed metadata
Project/Area Number |
17K00424
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
小林 紀郎 国立研究開発法人理化学研究所, 情報基盤センター, 上級センター研究員 (20415160)
|
Co-Investigator(Kenkyū-buntansha) |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | SPARQL / エンドポイント / RDF / 連合検索 / メタデータ / 生命科学データ |
Outline of Annual Research Achievements |
生命科学におけるデータ解析に必要なデータセットのメタデータの仕様策定に関して、分散配置されたSPARQLエンドポイント(以下エンドポイント) の連合検索が可能となるようなデータセットのメタデータ(以下メタデータ)の仕様を検討し、さらにメタデータをエンドポイントから取得するプログラムを作成、公開した。 その仕様策定に当たっては、以下の2点を考慮した。まず、メタデータを構成する基本的なデータ項は概念間(クラス間)の二項関係であるが、生命科学ではデータの網羅性が重要であるため、当該二項関係に含まれるインスタンスやトリプル数などの統計量を記述できるようにした。また、(i) eagle-iなどデータセット毎にエンドポイントが提供される場合と、(ii)理研など一つのエンドポイントが複数のデータセットを提供する場合があることから、メタデータの記載対象はエンドポイントとしながらも、(ii)のようにデータセット毎のメタデータも記載できるようにした。 さらに計画を前倒しして、公開中のエンドポイントからメタデータを取得するプロトタイププログラムの実装を行った。この実装を通して、データ量の多いエンドポイントにおいては、上記統計量の取得において誤った数値を返したりタイムアウトする場合があることが分かった。このことから、メタデータの仕様については、単に概念間の二項関係を取得するレベルと、統計量まで取得するレベルを定義した。 以上述べた、メタデータの仕様とプロトタイププログラムはGitHubのLODSurferリポジトリ―内て公開し、エンドポイントを公開している研究者等の間で共有できるようにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初次年度に実施する予定であったメタデータ取得プログラムについては、プロトタイプではあるが実装し公開できており、予定より研究は進んでいる。しかし、現在の仕様では、エンドポイントをまたいだRDFトリプルを取得する場合、そのトリプルがどれだけあるか等を全エンドポイント相互間で正確に記述することができていない。次年度においてさらにプログラムの完成に向けた実装の中でこの問題を解決していく必要が出てきたが、予定していた計画には大きく影響しない。
|
Strategy for Future Research Activity |
次年度においては、基本的には研究計画に沿って次に掲げる研究を行う。 (1)メタデータの取得をより確実に行えるようなメタデータ取得プログラムを構築する。(2) 複数のエンドポイントにまたがるに二項関係に当該の統計量を記述できるようメタデータ仕様を拡張する。(3)主要なエンドポイントのメタデータを取得し、メタデータ公開用のウエブサイトとエンドポイントを試験構築および試験公開する。
|
Causes of Carryover |
次年度はメタデータの公開サイトおよびSPARQLエンドポイントの構築を行い、メタデータの公開を行うが、この一部の開発作業を外注にて行う。さらに、成果発表を予定している国際会議が欧州で行われるため旅費が必要である。これらには当初予定額を上回る予算が必要であることから、これを次年度使用分に充当して支出する予定である。
|
Research Products
(9 results)