2019 Fiscal Year Annual Research Report
Development of novel directory function for efficient integration and retrieval of life science distributed metadata
Project/Area Number |
17K00424
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
小林 紀郎 国立研究開発法人理化学研究所, 情報システム本部, 開発ユニットリーダー (20415160)
|
Co-Investigator(Kenkyū-buntansha) |
山本 泰智 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (50470076)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | SPARQL / SPARQLエンドポイント / RDF / 連合検索 / メタデータ / 生命科学データ / 上位オントロジー |
Outline of Annual Research Achievements |
これまでの研究で生命科学のRDFデータセットに含まれるクラスは、同種のデータであってもデータセット毎に付与するクラスが異なることがあり、連合検索等の障害になっていることが分かっていた。このクラスの差異を解消するため、平成30年度の研究により、上位概念をまとめたオントロジー(以下、上位オントロジー)としてOnline Mendelian Inheritance in Man (OMIM)を用いてクラスの集約を行うプログラムの開発を進めていた。令和元年度においては、より多面的かつより多くのクラスに集約できるよう、Semanticscience Integrated Ontology (SIO)やMedical Subject Headings (MeSH)を含む6種のオントロジーに対応するよう拡張し、特にSIOとMeSHにより多くのクラスが集約されることが分かった。 YummyData.org と呼ぶ生命科学系のSPARQLエンドポイントの稼働率や高速性等を評価しランキングするサイトに掲載されている上位50のSPARQLエンドポイントを対象に、クラスやクラス間関係を含むメタデータを取得するとともに、上記6種の上位オントロジーのクラスでまとめ上げた結果も合わせてメタデータとして扱えるようメタデータスキーマを定義した。ここで、上位オントロジーでまとめることができたクラス数は、今のところ上記50のSPARQLエンドポイントが持つクラスの約10%にとどまっているが、これはクラス名のみを用いた単純なマッチングによるもので、表記ゆれ等の対応が必要であるという課題が残された。 しかしながら、以上の研究成果により、目標であった生命科学分散メタデータの高効率な統合と検索のための新規ディレクトリ機能に必要なメタデータの仕様が確立できた。さらに、本研究の成果物を理研メタデータベースと呼ぶメタデータ公開基盤より公開した。
|