研究課題/領域番号 |
21K12148
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 東京都市大学 |
研究代表者 |
山口 敦子 東京都市大学, その他部局等, 教授 (10346108)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2025年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2024年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2023年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2022年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | 知識グラフ / 生命科学データベース / RDF / SPARQL / バイオインフォマティクス / セマンティックウェブ |
研究開始時の研究の概要 |
生命科学分野では,複雑かつ多様なデータを統合的に取り扱うために,多くのデータベースが互いにURIがリンクしたグラフ構造で公開されている.グラフ間はURIを通して繋がり,結果として一つの巨大な知識グラフが構成される.ウェブに散在する知識グラフの全体像をユーザが把握し活用するために,グラフ構造を各サーバからできるだけ少ない負担で獲得する技術を構築する.さらに,獲得したグラフの構造の情報と,生命科学分野のユースケースを突き合せることにより,ユーザが効率的に必要なデータを知識グラフから取得するための技術を開発する.
|
研究実績の概要 |
昨年度に引き続き,生命科学分野において典型的に使われるSPARQLクエリパターンを収集した.その一環として,生命科学分野のデータを用いて構築した知識グラフから,遺伝性疾患に対する遺伝子パネルを自動的に取得する手法について検討した.その結果,初期診断と最終診断のずれを吸収するために,初期診断に対応する頂点の親や祖先にあたる頂点を選ぶことで,カバー率が高いまま,候補遺伝子の数を大幅に絞り込める遺伝子パネルを作成できることが判明した.その際,どのように親や祖先をさかのぼって頂点を選ぶかについて,様々な手法を比較検討し,最もよい絞り込みの性能を示したアルゴリズムを提案した.クエリパターンとしては,昨年度示した,star型とpath型と異なるパターンである,parent型として記述できる. また,医学以外の生命科学分野のデータとして,タンパク質配列データベースUniProtと化合物データベースPubChemのデータに対し,サンプルクエリとして提供されているSPARQLクエリ群やこれらのデータベースを利用したアプリケーション内で用いられるSPARQLクエリに対する調査を行った.その結果,取得した構造を利用してデータを絞り込めるクエリがある一方,対象クラスそのものを求めるクエリが一定数あることがわかった.例えば,UniProt IDからGene Ontologyのクラスを求める場合などがこれにあたる.これらのクエリの場合,クラスによるインスタンスの絞り込みができないため,現在構築中の枠組みを拡張し,クラス自体を求めるクエリに対応させる必要があることがわかった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は巨大RDFデータのスキーマ構造を用いて対象となるデータを絞り込む際,どのようなSPARQLクエリが効果的であり,一方,どのようなSPARQLクエリは現在の枠組みでは絞り込みが困難かを明らかにした.また,実用の面から医学分野での知識グラフの応用において,SPARQLクエリの検討を行い,遺伝子パネルの作成において,parent型のクエリが有効であることを示した.
|
今後の研究の推進方策 |
今年度の調査により,検索に利用するスキーマ構造として,クラス-インスタンス関係に基づく構造のみならず,クラス-親クラス関係の構造を利用する必要が出てきた.これまでは,クラス-インスタンス関係に基づいたスキーマ構造記述方法を利用してきたが,クラス-インスタンス関係とクラス-親クラス関係の双方を同時に扱えるスキーマ構造の必要性が明らかになったため,その記述方法の設計を試みる.また,新たに設計した記述方法に沿ったスキーマ構造の取得を試みる.さらに,その記述方法をこれまで収集調査してきたクエリに適用し,絞り込みが適切に行われることを確認する. また,並行して,実用的なアプリケーションに用いられるクエリのパターンについて,調査を続行し,クエリのパターンの分類を行う.
|