研究課題/領域番号 |
21K12148
|
研究機関 | 東京都市大学 |
研究代表者 |
山口 敦子 東京都市大学, その他部局等, 教授 (10346108)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 知識グラフ / 生命科学データベース / RDF / SPARQL |
研究実績の概要 |
昨年度に引き続き,生命科学分野において典型的に使われるSPARQLクエリパターンを収集した.その一環として,生命科学分野のデータを用いて構築した知識グラフから,遺伝性疾患に対する遺伝子パネルを自動的に取得する手法について検討した.その結果,初期診断と最終診断のずれを吸収するために,初期診断に対応する頂点の親や祖先にあたる頂点を選ぶことで,カバー率が高いまま,候補遺伝子の数を大幅に絞り込める遺伝子パネルを作成できることが判明した.その際,どのように親や祖先をさかのぼって頂点を選ぶかについて,様々な手法を比較検討し,最もよい絞り込みの性能を示したアルゴリズムを提案した.クエリパターンとしては,昨年度示した,star型とpath型と異なるパターンである,parent型として記述できる. また,医学以外の生命科学分野のデータとして,タンパク質配列データベースUniProtと化合物データベースPubChemのデータに対し,サンプルクエリとして提供されているSPARQLクエリ群やこれらのデータベースを利用したアプリケーション内で用いられるSPARQLクエリに対する調査を行った.その結果,取得した構造を利用してデータを絞り込めるクエリがある一方,対象クラスそのものを求めるクエリが一定数あることがわかった.例えば,UniProt IDからGene Ontologyのクラスを求める場合などがこれにあたる.これらのクエリの場合,クラスによるインスタンスの絞り込みができないため,現在構築中の枠組みを拡張し,クラス自体を求めるクエリに対応させる必要があることがわかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は巨大RDFデータのスキーマ構造を用いて対象となるデータを絞り込む際,どのようなSPARQLクエリが効果的であり,一方,どのようなSPARQLクエリは現在の枠組みでは絞り込みが困難かを明らかにした.また,実用の面から医学分野での知識グラフの応用において,SPARQLクエリの検討を行い,遺伝子パネルの作成において,parent型のクエリが有効であることを示した.
|
今後の研究の推進方策 |
今年度の調査により,検索に利用するスキーマ構造として,クラス-インスタンス関係に基づく構造のみならず,クラス-親クラス関係の構造を利用する必要が出てきた.これまでは,クラス-インスタンス関係に基づいたスキーマ構造記述方法を利用してきたが,クラス-インスタンス関係とクラス-親クラス関係の双方を同時に扱えるスキーマ構造の必要性が明らかになったため,その記述方法の設計を試みる.また,新たに設計した記述方法に沿ったスキーマ構造の取得を試みる.さらに,その記述方法をこれまで収集調査してきたクエリに適用し,絞り込みが適切に行われることを確認する. また,並行して,実用的なアプリケーションに用いられるクエリのパターンについて,調査を続行し,クエリのパターンの分類を行う.
|
次年度使用額が生じた理由 |
昨年度,参加した国際会議が全てオンライン開催になったため,未使用の旅費が発生した.今年度は海外で開催された国際会議に参加し,今年度分は使用したものの,昨年度分の額が未使用のままとなった.来年度,国内外の国際会議や学会に参加予定であり,それによって使用する予定である.
|