2022 Fiscal Year Research-status Report
Efficient knowledge acquisition based on the structure of large-scale knowledge graphs in life sciences
Project/Area Number |
21K12148
|
Research Institution | Tokyo City University |
Principal Investigator |
山口 敦子 東京都市大学, その他部局等, 教授 (10346108)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | 知識グラフ / 生命科学データベース / RDF / SPARQL |
Outline of Annual Research Achievements |
昨年度に引き続き,生命科学分野において典型的に使われるSPARQLクエリパターンを収集した.その一環として,生命科学分野のデータを用いて構築した知識グラフから,遺伝性疾患に対する遺伝子パネルを自動的に取得する手法について検討した.その結果,初期診断と最終診断のずれを吸収するために,初期診断に対応する頂点の親や祖先にあたる頂点を選ぶことで,カバー率が高いまま,候補遺伝子の数を大幅に絞り込める遺伝子パネルを作成できることが判明した.その際,どのように親や祖先をさかのぼって頂点を選ぶかについて,様々な手法を比較検討し,最もよい絞り込みの性能を示したアルゴリズムを提案した.クエリパターンとしては,昨年度示した,star型とpath型と異なるパターンである,parent型として記述できる. また,医学以外の生命科学分野のデータとして,タンパク質配列データベースUniProtと化合物データベースPubChemのデータに対し,サンプルクエリとして提供されているSPARQLクエリ群やこれらのデータベースを利用したアプリケーション内で用いられるSPARQLクエリに対する調査を行った.その結果,取得した構造を利用してデータを絞り込めるクエリがある一方,対象クラスそのものを求めるクエリが一定数あることがわかった.例えば,UniProt IDからGene Ontologyのクラスを求める場合などがこれにあたる.これらのクエリの場合,クラスによるインスタンスの絞り込みができないため,現在構築中の枠組みを拡張し,クラス自体を求めるクエリに対応させる必要があることがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は巨大RDFデータのスキーマ構造を用いて対象となるデータを絞り込む際,どのようなSPARQLクエリが効果的であり,一方,どのようなSPARQLクエリは現在の枠組みでは絞り込みが困難かを明らかにした.また,実用の面から医学分野での知識グラフの応用において,SPARQLクエリの検討を行い,遺伝子パネルの作成において,parent型のクエリが有効であることを示した.
|
Strategy for Future Research Activity |
今年度の調査により,検索に利用するスキーマ構造として,クラス-インスタンス関係に基づく構造のみならず,クラス-親クラス関係の構造を利用する必要が出てきた.これまでは,クラス-インスタンス関係に基づいたスキーマ構造記述方法を利用してきたが,クラス-インスタンス関係とクラス-親クラス関係の双方を同時に扱えるスキーマ構造の必要性が明らかになったため,その記述方法の設計を試みる.また,新たに設計した記述方法に沿ったスキーマ構造の取得を試みる.さらに,その記述方法をこれまで収集調査してきたクエリに適用し,絞り込みが適切に行われることを確認する. また,並行して,実用的なアプリケーションに用いられるクエリのパターンについて,調査を続行し,クエリのパターンの分類を行う.
|
Causes of Carryover |
昨年度,参加した国際会議が全てオンライン開催になったため,未使用の旅費が発生した.今年度は海外で開催された国際会議に参加し,今年度分は使用したものの,昨年度分の額が未使用のままとなった.来年度,国内外の国際会議や学会に参加予定であり,それによって使用する予定である.
|
Research Products
(6 results)