• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

Efficient knowledge acquisition based on the structure of large-scale knowledge graphs in life sciences

Research Project

Project/Area Number 21K12148
Research InstitutionTokyo City University

Principal Investigator

山口 敦子  東京都市大学, その他部局等, 教授 (10346108)

Project Period (FY) 2021-04-01 – 2026-03-31
Keywords知識グラフ / 生命科学データベース / RDF
Outline of Annual Research Achievements

効率の良いサンプリングからのスキーマ構造推定方法を確立するためには,サンプリングによるスキーマ構造の精度を評価する必要がある.スキーマ構造の精度の評価には,スキーマ構造の正解セットが必要なため,まず,生命科学分野の13のSPARQLエンドポイントから,従来の網羅的に構造を探索する方法で,RDFデータの正確なスキーマ構造の取得を試みた.13のうち,9つからは時間をかけて取得することができたが,4つはサーバが途中から応答しなくなるなどの理由から取得ができなかった.従来の方法でスキーマ構造が取得できた9つのRDFデータは,生命科学データとしては中程度のサイズのものが多く,最大のタンパク質配列データベースUniProtなどの巨大なRDFデータでは失敗していた.本研究のサンプリング手法は巨大なRDFデータの利用を想定したもののため,巨大なRDFデータの正解セットも必要である.そのため,巨大なRDFデータについては,データをダウンロードサイトからファイルとしてダウンロードして処理し,正解セットを作成することとした.そのため,巨大なRDFデータとしての評価対象は,ダウンロードが可能な3つ(UniProt, DBKERO, PubChem)のRDFデータに絞ることにした.これら3つのデータをダウンロードし,手元でクラス間関係などのスキーマ構造を計算することで,評価用の正解セットを得ることができた.また,サンプリングの基準となる,各クラスのインスタンス数やプロパティの利用数など,基本的な統計情報を得ることができた.
また,生命科学分野で典型的に使われるSPARQLクエリのパターン収集の一環として,医学分野における診断支援アプリケーションにおけるクエリパターンを収集し解析を行った.その結果,ここで用いられるクエリはstarとpathの組み合わせで記述できることが分かった.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

従来の網羅的な手法で取得した中程度のRDFデータのスキーマ構造に加え,巨大RDFデータのスキーマ構造をダウンロードしたファイルから計算し,正解セットとなる正確なスキーマ構造を得たことで,様々なサイズのRDFデータに対し,サンプリングの実験とその評価が可能となった.また,各クラスのインスタンス数などの,RDFデータに関する統計情報も得られたため,これらを利用したサンプリング方法の設計も可能となった.
さらに,医学分野における診断支援アプリケーションにおけるクエリパターンがstarとpathの組み合わせという比較的単純な形で記述できることが分かった.このような調査をさらに進め,生命科学分野全体でどのようなクエリパターンの組み合わせで記述可能であるかが明らかになれば,最終目的となる効率的な知識グラフの検索システムの実現に近づくことになる.

Strategy for Future Research Activity

スキーマ構造を効率よく取得するために,クラスごとにある割合で頂点をサンプリングする,プロパティごとに一定数をサンプリングしてその両端の頂点のクラスを調べるなど,様々なサンプリング手法を試す。そして,その結果を今年度作成した巨大データの正解セットと比較する.サンプリングの評価の際に,ウェブ上のSPARQLエンドポイントを利用すると,データのアップデートにより正解セットとウェブ上のデータとにずれができる可能性があり,また,相手側のサーバにも負担をかけることになるため,ダウンロードしたRDFデータを用いてSPARQLエンドポイントを立てて実験する予定である.
また,クエリパターンの収集を医学以外の生命科学分野にも広げ,実際のアプリケーションで利用されているクエリが本質的にどのような形状で記述可能であるかの調査を進めていく予定である.

Causes of Carryover

国際会議への参加を予定し,そのための旅費を予算に入れていたが,参加したいずれの国際会議もオンライン開催であり,旅費を使う必要がなかったため,使用額に差異が生じた.新型コロナの状況が好転すれば,国際会議参加によって利用する.さらに,国内学会やワークショップ参加によって利用する予定である.

  • Research Products

    (2 results)

All 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] Gene Ranking based on Paths from Phenotypes to Genes on Knowledge Graph2021

    • Author(s)
      Yamaguchi Atsuko、Shin Jae-Moon、Fujiwara Toyofumi
    • Journal Title

      ACM ICPS Proceedings, IJCKG'21

      Volume: 2021 Pages: 131-134

    • DOI

      10.1145/3502223.3502240

    • Peer Reviewed
  • [Presentation] PubCaseFinder: A clinical decision support system for the diagnosis of patients with suspected rare genetic diseases2021

    • Author(s)
      Toyofumi Fujiwara, Shin Jae-Moon, Susumu Goto, Atsuko Yamaguchi
    • Organizer
      GA4GH 9th Plenary Meeting
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi