Efficient knowledge acquisition based on the structure of large-scale knowledge graphs in life sciences
Project/Area Number |
21K12148
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62020:Web informatics and service informatics-related
|
Research Institution | Tokyo City University |
Principal Investigator |
山口 敦子 東京都市大学, その他部局等, 教授 (10346108)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 知識グラフ / 生命科学データベース / RDF / SPARQL / バイオインフォマティクス / セマンティックウェブ |
Outline of Research at the Start |
生命科学分野では,複雑かつ多様なデータを統合的に取り扱うために,多くのデータベースが互いにURIがリンクしたグラフ構造で公開されている.グラフ間はURIを通して繋がり,結果として一つの巨大な知識グラフが構成される.ウェブに散在する知識グラフの全体像をユーザが把握し活用するために,グラフ構造を各サーバからできるだけ少ない負担で獲得する技術を構築する.さらに,獲得したグラフの構造の情報と,生命科学分野のユースケースを突き合せることにより,ユーザが効率的に必要なデータを知識グラフから取得するための技術を開発する.
|
Outline of Annual Research Achievements |
昨年度に引き続き,生命科学分野において典型的に使われるSPARQLクエリパターンを収集した.その一環として,生命科学分野のデータを用いて構築した知識グラフから,遺伝性疾患に対する遺伝子パネルを自動的に取得する手法について検討した.その結果,初期診断と最終診断のずれを吸収するために,初期診断に対応する頂点の親や祖先にあたる頂点を選ぶことで,カバー率が高いまま,候補遺伝子の数を大幅に絞り込める遺伝子パネルを作成できることが判明した.その際,どのように親や祖先をさかのぼって頂点を選ぶかについて,様々な手法を比較検討し,最もよい絞り込みの性能を示したアルゴリズムを提案した.クエリパターンとしては,昨年度示した,star型とpath型と異なるパターンである,parent型として記述できる. また,医学以外の生命科学分野のデータとして,タンパク質配列データベースUniProtと化合物データベースPubChemのデータに対し,サンプルクエリとして提供されているSPARQLクエリ群やこれらのデータベースを利用したアプリケーション内で用いられるSPARQLクエリに対する調査を行った.その結果,取得した構造を利用してデータを絞り込めるクエリがある一方,対象クラスそのものを求めるクエリが一定数あることがわかった.例えば,UniProt IDからGene Ontologyのクラスを求める場合などがこれにあたる.これらのクエリの場合,クラスによるインスタンスの絞り込みができないため,現在構築中の枠組みを拡張し,クラス自体を求めるクエリに対応させる必要があることがわかった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は巨大RDFデータのスキーマ構造を用いて対象となるデータを絞り込む際,どのようなSPARQLクエリが効果的であり,一方,どのようなSPARQLクエリは現在の枠組みでは絞り込みが困難かを明らかにした.また,実用の面から医学分野での知識グラフの応用において,SPARQLクエリの検討を行い,遺伝子パネルの作成において,parent型のクエリが有効であることを示した.
|
Strategy for Future Research Activity |
今年度の調査により,検索に利用するスキーマ構造として,クラス-インスタンス関係に基づく構造のみならず,クラス-親クラス関係の構造を利用する必要が出てきた.これまでは,クラス-インスタンス関係に基づいたスキーマ構造記述方法を利用してきたが,クラス-インスタンス関係とクラス-親クラス関係の双方を同時に扱えるスキーマ構造の必要性が明らかになったため,その記述方法の設計を試みる.また,新たに設計した記述方法に沿ったスキーマ構造の取得を試みる.さらに,その記述方法をこれまで収集調査してきたクエリに適用し,絞り込みが適切に行われることを確認する. また,並行して,実用的なアプリケーションに用いられるクエリのパターンについて,調査を続行し,クエリのパターンの分類を行う.
|
Report
(2 results)
Research Products
(8 results)