2018 Fiscal Year Research-status Report
生命科学データの分散知識統合基盤に資する安定かつ高速な連合検索
Project/Area Number |
17K00434
|
Research Institution | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
Principal Investigator |
山口 敦子 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (10346108)
|
Co-Investigator(Kenkyū-buntansha) |
小林 紀郎 国立研究開発法人理化学研究所, 情報システム本部, 上級研究員 (20415160)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | RDF / 連合検索 / SPARQL / 生命科学データベース / リンクトオープンデータ |
Outline of Annual Research Achievements |
昨年度開発した連合クラスグラフ上の概念間パスから連合検索クエリを生成するウェブAPIを発展させ,連合クラスグラフ上の概念間パスから連合検索を行うプロトタイプを作成した.また,このプロトタイプをタンパク質配列のマルチプルアライメントビューワに組み込み,タンパク質アノテーションに適用することを試みた.その結果,現状の概念間パスからの連合検索を実用のアプリケーション上で利用する際の利点および課題を明らかにすることができた. 利点としては,ユーザは連合クラスグラフ上の概念間パスを選ぶのみで,それらのデータがどこのデータベースにどのようなスキーマで格納されているかを考慮する必要がなく,柔軟なアノテーションが可能となった.課題は,メタデータを用いてクラスでまとめて高速化しているものの,タンパク質数が増えると連合検索クエリによってはGUI上では待てない検索時間になる場合があることが分かった.
また,昨年度課題となっていた孤立クラスへの対応については,上位クラスでまとめるようメタデータの設計を改良した.このことから,概念間パスで検索ができないことを回避した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
連合クラスグラフ上の概念間パスから連合検索を行うプロトタイプを作成し,タンパク質配列のマルチプルアライメントビューワに組み込むことで,各タンパク質のアノテーション取得時に柔軟な検索を連合クラスグラフ上で行えることを確認した. その一方で,対象となるタンパク質数が数千のレベルまで増えると,対象となるSPARQLエンドポイントとクエリによっては,ユーザがGUI上では待てない検索時間(数分以上)がかかる場合がある.時間がかかるクエリの解析を進め,より高速に結果を取得する手法を考案する必要がある. メタデータにおいては,孤立クラスに対して上位クラスでまとめるようメタデータの設計を改良し,その設計に沿ってメタデータ取得システムを改良した.
|
Strategy for Future Research Activity |
次年度については,基本的には研究計画の内容を行う.今年度の利用例から得られた知見をもとに,現在の連合検索プロトタイプシステムを改良する.さらに,計画通り,SPARQL Builderシステムへの組み込みを行い,ウェブ上のシステムとして公開する.具体的な利用例としては,引き続きタンパク質配列のマルチプルアライメントビューワでの利用をすすめる.
|
Causes of Carryover |
国際会議等で使用予定であったが,次年度のSPARQL Builderへの組み込み開発への利用に計画を変更したため.
|