• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Efficient knowledge acquisition based on the structure of large-scale knowledge graphs in life sciences

Research Project

Project/Area Number 21K12148
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 62020:Web informatics and service informatics-related
Research InstitutionTokyo City University

Principal Investigator

山口 敦子  東京都市大学, デザイン・データ科学部, 教授 (10346108)

Project Period (FY) 2021-04-01 – 2026-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Keywords知識グラフ / 生命科学データベース / RDF / SPARQL / バイオインフォマティクス / セマンティックウェブ
Outline of Research at the Start

生命科学分野では,複雑かつ多様なデータを統合的に取り扱うために,多くのデータベースが互いにURIがリンクしたグラフ構造で公開されている.グラフ間はURIを通して繋がり,結果として一つの巨大な知識グラフが構成される.ウェブに散在する知識グラフの全体像をユーザが把握し活用するために,グラフ構造を各サーバからできるだけ少ない負担で獲得する技術を構築する.さらに,獲得したグラフの構造の情報と,生命科学分野のユースケースを突き合せることにより,ユーザが効率的に必要なデータを知識グラフから取得するための技術を開発する.

Outline of Annual Research Achievements

昨年に引き続き,希少疾患分野を中心にユースケースを考慮して,疾患関連遺伝子を含むような遺伝子パネルの効率的取得と診断手法の効率改善に取り組みつつ,これを可能とするクエリの構造を精査した.また,医学系のユースケースに加え,基礎的な分子生物学データベースとして,特定の三次元構造をとらないまま機能をもつ天然変性タンパク質のDBをユースケースを考慮しながら,RDF設計を行った.特に天然変性タンパク質は,特定の構造を持たないため,一つのタンパク質に対し,複数の結合のパターンが存在しうることが知られている.そのために,天然変性タンパク質は複雑な生物学プロセスを通して,様々な病気の原因となりうるため,その生物学的プロセスをどのように蓄積し,どのように取り出すかについて考慮して設計した.天然変性タンパク質の生物学的プロセスのRDF設計については,SWAT4HCLS 2024で発表した.
また,クローリングにより蓄積したRDFやその構造は,巨大になりがちであるが,これを高速にかつできるだけ小さな領域で保持できるよう,データの構造とアルゴリズムの設計を行い,従来手法でと比較した.具体的にはRDFにおいて,グローバルかつ一意なIDとして用いられるIRIについて,圧縮辞書の作成およびその検索アルゴリズムについて検討した.特に,簡潔構造のひとつであるLOUDSと辞書構造であるTrieを用いた手法を,FrontCodingなどと,圧縮率および検索時間について,比較を行った.そして,その結果,提案手法は検索速度において十分速く,圧縮率も高いことを示すことができた.この内容は,IJCKG 2023で発表した.
さらに近年注目を集めている大規模言語モデルを用いたクエリの生成に着手し,これまで収集したユースケースの中で単純なものを選び,どの程度,プロンプトエンジニアリングにより適切にクエリを構築できるか,検討中である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度はユースケースの収集を中心に行った.応用に近い分野である医学(希少疾患の診断支援)および,基礎に近い分野である分子生物学(天然変性タンパク質の生物学的プロセス)でそれぞれ,実用上どのようにRDFに対してクエリをかけるか,典型例を収集した.特に天然変性タンパク質のプロセスはクエリを考慮しつつRDFの設計を行った.
また,クロールで収集したRDFを蓄積し,検索するために,簡潔構造による圧縮検索を提案した.

Strategy for Future Research Activity

今年度収集したクエリの解析を進めたい.さらに,今年着手した,RDFに対するクエリと大規模言語モデルとの組み合わせを考えていきたい.特に,大規模言語モデルの出力は誤りを含むことが知られているが,RDFの中に正解が記述されていると考えた場合,その正解はどのようなクエリで取得可能かを調べていきたいと考えている.
また,引き続き,ウェブのクローリングおよび構造解析は引き続き進めたいと考えている.

Report

(3 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (13 results)

All 2024 2023 2022 2021

All Journal Article (4 results) (of which Peer Reviewed: 4 results,  Open Access: 3 results) Presentation (9 results) (of which Int'l Joint Research: 6 results)

  • [Journal Article] A Comparative Study on Storing and Retrieval of URIs for Life Sciences Databases.2024

    • Author(s)
      Atsuko Yamaguchi, Yasunori Yamamoto
    • Journal Title

      CEUR Workshop Proceedings

      Volume: 3659 Pages: 9-12

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Ontology-based expansion of virtual gene panels to improve diagnostic efficiency for rare genetic diseases2023

    • Author(s)
      Jae-Moon Shin, Toyofumi Fujiwara, Atsuko Yamaguchi
    • Journal Title

      CEUR Workshop Proceedings

      Volume: 3415 Pages: 87-91

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Advances in the development of PubCaseFinder, including the new application programming interface and matching algorithm2022

    • Author(s)
      Toyofumi Fujiwara, Jae‐Moon Shin, Atsuko Yamaguchi
    • Journal Title

      Human Mutation

      Volume: 43 Pages: 734-742

    • DOI

      10.1002/humu.24341

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Gene Ranking based on Paths from Phenotypes to Genes on Knowledge Graph2021

    • Author(s)
      Yamaguchi Atsuko、Shin Jae-Moon、Fujiwara Toyofumi
    • Journal Title

      The 10th International Joint Conference on Knowledge Graphs

      Volume: - Pages: 131-134

    • DOI

      10.1145/3502223.3502240

    • Related Report
      2021 Research-status Report
    • Peer Reviewed
  • [Presentation] A Semantic Design for the Biological Processes Associated with Intrinsically Disordered Proteins2024

    • Author(s)
      Atsuko Yamaguchi, Yumiko Kado, Shigetaka Sakamoto, Satoshi Fukuchi, Motonori Ota
    • Organizer
      SWAT4HCLS 2024
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] CaseSharing: A management system for case information on rare diseases2023

    • Author(s)
      Toyofumi Fujiwara, Jae-Moon Shin, Atsuko Yamaguchi and Atsuo Kikuchi
    • Organizer
      ESHG Conference 2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] PubCaseFinder: 希少・遺伝性疾患に特化した症例情報管理システムの開発2023

    • Author(s)
      藤原 豊史、申 在紋、山口 敦子、菊池 敦生
    • Organizer
      第30回日本遺伝子診療学会大会
    • Related Report
      2023 Research-status Report
  • [Presentation] Ontology-based expansion of virtual gene panels to improve diagnostic efficiency for rare genetic diseases2023

    • Author(s)
      Jae-Moon Shin, Toyofumi Fujiwara, Atsuko Yamaguchi
    • Organizer
      14th International SWAT4HCLS Conference
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] PubCaseFinder: Virtual Gene Panel を活用した WES/WGS 結果解釈補助機能の構築2022

    • Author(s)
      藤原豊史,申在紋,才津浩智,山口敦子
    • Organizer
      第29回日本遺伝子診療学会大会
    • Related Report
      2022 Research-status Report
  • [Presentation] Propose of the method to design virtual gene panels for the acceleration of clinical genome interpretation2022

    • Author(s)
      Toyofumi Fujiwara, Jae-Moon Shin, Hirotomo Saitsu, Atsuko Yamaguchi
    • Organizer
      日本人類遺伝学会第67回大会
    • Related Report
      2022 Research-status Report
  • [Presentation] PubCaseFinder: A clinical decision support system for better diagnosis of rare genetic diseases2022

    • Author(s)
      Jae-Moon Shin, Toyofumi Fujiwara, Atsuko Yamaguchi
    • Organizer
      The 31st International KOGO Annual Conference
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] PubCaseFinder: Implementation of the new function designing Mondo-based virtual gene panels to increase diagnostic efficiency for rare genetic diseases2022

    • Author(s)
      Toyofumi Fujiwara, Jae-Moon Shin, Hirotomo Saitsu, Atsuko Yamaguchi
    • Organizer
      American Society of Human Genetics (ASHG) Annual Meeting 2022
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] PubCaseFinder: A clinical decision support system for the diagnosis of patients with suspected rare genetic diseases2021

    • Author(s)
      Toyofumi Fujiwara, Shin Jae-Moon, Susumu Goto, Atsuko Yamaguchi
    • Organizer
      GA4GH 9th Plenary Meeting
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research

URL: 

Published: 2021-04-28   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi