2023 Fiscal Year Research-status Report
Efficient knowledge acquisition based on the structure of large-scale knowledge graphs in life sciences
Project/Area Number |
21K12148
|
Research Institution | Tokyo City University |
Principal Investigator |
山口 敦子 東京都市大学, デザイン・データ科学部, 教授 (10346108)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Keywords | 知識グラフ / 生命科学データベース / RDF / SPARQL |
Outline of Annual Research Achievements |
昨年に引き続き,希少疾患分野を中心にユースケースを考慮して,疾患関連遺伝子を含むような遺伝子パネルの効率的取得と診断手法の効率改善に取り組みつつ,これを可能とするクエリの構造を精査した.また,医学系のユースケースに加え,基礎的な分子生物学データベースとして,特定の三次元構造をとらないまま機能をもつ天然変性タンパク質のDBをユースケースを考慮しながら,RDF設計を行った.特に天然変性タンパク質は,特定の構造を持たないため,一つのタンパク質に対し,複数の結合のパターンが存在しうることが知られている.そのために,天然変性タンパク質は複雑な生物学プロセスを通して,様々な病気の原因となりうるため,その生物学的プロセスをどのように蓄積し,どのように取り出すかについて考慮して設計した.天然変性タンパク質の生物学的プロセスのRDF設計については,SWAT4HCLS 2024で発表した. また,クローリングにより蓄積したRDFやその構造は,巨大になりがちであるが,これを高速にかつできるだけ小さな領域で保持できるよう,データの構造とアルゴリズムの設計を行い,従来手法でと比較した.具体的にはRDFにおいて,グローバルかつ一意なIDとして用いられるIRIについて,圧縮辞書の作成およびその検索アルゴリズムについて検討した.特に,簡潔構造のひとつであるLOUDSと辞書構造であるTrieを用いた手法を,FrontCodingなどと,圧縮率および検索時間について,比較を行った.そして,その結果,提案手法は検索速度において十分速く,圧縮率も高いことを示すことができた.この内容は,IJCKG 2023で発表した. さらに近年注目を集めている大規模言語モデルを用いたクエリの生成に着手し,これまで収集したユースケースの中で単純なものを選び,どの程度,プロンプトエンジニアリングにより適切にクエリを構築できるか,検討中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度はユースケースの収集を中心に行った.応用に近い分野である医学(希少疾患の診断支援)および,基礎に近い分野である分子生物学(天然変性タンパク質の生物学的プロセス)でそれぞれ,実用上どのようにRDFに対してクエリをかけるか,典型例を収集した.特に天然変性タンパク質のプロセスはクエリを考慮しつつRDFの設計を行った. また,クロールで収集したRDFを蓄積し,検索するために,簡潔構造による圧縮検索を提案した.
|
Strategy for Future Research Activity |
今年度収集したクエリの解析を進めたい.さらに,今年着手した,RDFに対するクエリと大規模言語モデルとの組み合わせを考えていきたい.特に,大規模言語モデルの出力は誤りを含むことが知られているが,RDFの中に正解が記述されていると考えた場合,その正解はどのようなクエリで取得可能かを調べていきたいと考えている. また,引き続き,ウェブのクローリングおよび構造解析は引き続き進めたいと考えている.
|
Causes of Carryover |
最初の年度の旅費が新型コロナの影響で使用できなかったことがずっと響いているが,一方,航空運賃の高騰でかなり今年度使うこととなった.来年度は旅費および論文投稿料で使用する予定である.
|