研究課題/領域番号 |
17K00434
|
研究機関 | 大学共同利用機関法人情報・システム研究機構(機構本部施設等) |
研究代表者 |
山口 敦子 大学共同利用機関法人情報・システム研究機構(機構本部施設等), データサイエンス共同利用基盤施設, 特任准教授 (10346108)
|
研究分担者 |
小林 紀郎 国立研究開発法人理化学研究所, 情報システム本部, 上級研究員 (20415160)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | RDF / 連合検索 / SPARQL / 生命科学データベース / リンクトオープンデータ |
研究実績の概要 |
昨年度開発した連合クラスグラフ上の概念間パスから連合検索クエリを生成するウェブAPIを発展させ,連合クラスグラフ上の概念間パスから連合検索を行うプロトタイプを作成した.また,このプロトタイプをタンパク質配列のマルチプルアライメントビューワに組み込み,タンパク質アノテーションに適用することを試みた.その結果,現状の概念間パスからの連合検索を実用のアプリケーション上で利用する際の利点および課題を明らかにすることができた. 利点としては,ユーザは連合クラスグラフ上の概念間パスを選ぶのみで,それらのデータがどこのデータベースにどのようなスキーマで格納されているかを考慮する必要がなく,柔軟なアノテーションが可能となった.課題は,メタデータを用いてクラスでまとめて高速化しているものの,タンパク質数が増えると連合検索クエリによってはGUI上では待てない検索時間になる場合があることが分かった.
また,昨年度課題となっていた孤立クラスへの対応については,上位クラスでまとめるようメタデータの設計を改良した.このことから,概念間パスで検索ができないことを回避した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
連合クラスグラフ上の概念間パスから連合検索を行うプロトタイプを作成し,タンパク質配列のマルチプルアライメントビューワに組み込むことで,各タンパク質のアノテーション取得時に柔軟な検索を連合クラスグラフ上で行えることを確認した. その一方で,対象となるタンパク質数が数千のレベルまで増えると,対象となるSPARQLエンドポイントとクエリによっては,ユーザがGUI上では待てない検索時間(数分以上)がかかる場合がある.時間がかかるクエリの解析を進め,より高速に結果を取得する手法を考案する必要がある. メタデータにおいては,孤立クラスに対して上位クラスでまとめるようメタデータの設計を改良し,その設計に沿ってメタデータ取得システムを改良した.
|
今後の研究の推進方策 |
次年度については,基本的には研究計画の内容を行う.今年度の利用例から得られた知見をもとに,現在の連合検索プロトタイプシステムを改良する.さらに,計画通り,SPARQL Builderシステムへの組み込みを行い,ウェブ上のシステムとして公開する.具体的な利用例としては,引き続きタンパク質配列のマルチプルアライメントビューワでの利用をすすめる.
|
次年度使用額が生じた理由 |
国際会議等で使用予定であったが,次年度のSPARQL Builderへの組み込み開発への利用に計画を変更したため.
|