研究課題/領域番号 |
17K00424
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
小林 紀郎 国立研究開発法人理化学研究所, 情報システム本部, 上級研究員 (20415160)
|
研究分担者 |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | SPARQL / SPARQLエンドポイント / RDF / 連合検索 / メタデータ / 生命科学データ |
研究実績の概要 |
昨年度までに生命科学におけるデータ解析に必要なRDFデータセットのメタデータ(以下、メタデータと呼ぶ)の仕様を策定し、そのメタデータをSPARQLエンドポイントから取得するプログラムを作成して公開した。このプログラムでは、SPARQLエンドポイントにアクセスする状況によっては正しい情報が取得できないことがあったが、同一の目的を達成する数種類のクエリセットを準備し、それらを必要に応じて適用することにより、より確実なメタデータの取得ができるようになった。
一方、RDFデータに付されるクラスはデータセットにより異なることがあり、連合検索の障害となっていることが分かった。そこで、上位の概念をまとめたオントロジー(以下、上位オントロジーと呼ぶ)が与えられたときに、すべてのデータセットに含まれるすべてのクラスを上位オントロジーに集約するプログラムを開発した。まずその効果を評価するため、YummyData.org と呼ぶ生命科学系のSPARQLエンドポイントの稼働率や高速性等を評価しランキングするサイトに掲載されている上位50のSPARQLエンドポイントを対象にメタデータを取得するとともに、ヒトの遺伝子と遺伝子によって規定される表現型のカタログOnline Mendelian Inheritance in Man(OMIM)を用いて、クラスをOMIMの概念に集約することに成功した。
以上述べたメタデータと上位オントロジーを合わせて公開するサイトの設計を終え、その実装の準備が整った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
SPARQLエンドポイントを跨いだRDFデータの取得に当たっては、SPARQLエンドポイントによって与えるクラスが異なることがあり、これが連合検索の妨げになっていた。当初の計画では、この問題解決のためにクラスに属しているインスタンスのURIをひとつずつ突き合わせる膨大な処理を実行することにしていたが、クラスを上位オントロジークラスにマップする代案を考案し、完全な解決には至らないが実用時間で実行できる改善策が得られた。この成果から上位オントロジークラスを含むメタデータの公開サイト開発にめどがつき、おおむね計画通り研究が進めることができている。
|
今後の研究の推進方策 |
次年度においては、上位オントロジーとしてOMIM以外の有効なオントロジーを探索、適用して、より多くのクラスを多面的にまとめられるように改良していく。さらにメタデータ公開サイトを構築し公開する。
|
次年度使用額が生じた理由 |
本年度はメタデータ公開サイトの開発の一部を外注により行う予定であったが、当初計画になかった上位オントロジーによるクラスの集約機能の開発に注力する必要があったため、メタデータ公開サイト開発を次年度まとめて行う。さらには成果発表を予定している国際会議が欧州で行われるため旅費が必要である。これらに要する額は当初予算を上回ったことから、次年度使用分に充当することとした。
|