Project/Area Number |
21K12148
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62020:Web informatics and service informatics-related
|
Research Institution | Tokyo City University |
Principal Investigator |
山口 敦子 東京都市大学, デザイン・データ科学部, 教授 (10346108)
|
Project Period (FY) |
2021-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2024: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2023: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 知識グラフ / 生命科学データベース / RDF / SPARQL / バイオインフォマティクス / セマンティックウェブ |
Outline of Research at the Start |
生命科学分野では,複雑かつ多様なデータを統合的に取り扱うために,多くのデータベースが互いにURIがリンクしたグラフ構造で公開されている.グラフ間はURIを通して繋がり,結果として一つの巨大な知識グラフが構成される.ウェブに散在する知識グラフの全体像をユーザが把握し活用するために,グラフ構造を各サーバからできるだけ少ない負担で獲得する技術を構築する.さらに,獲得したグラフの構造の情報と,生命科学分野のユースケースを突き合せることにより,ユーザが効率的に必要なデータを知識グラフから取得するための技術を開発する.
|
Outline of Annual Research Achievements |
昨年に引き続き,希少疾患分野を中心にユースケースを考慮して,疾患関連遺伝子を含むような遺伝子パネルの効率的取得と診断手法の効率改善に取り組みつつ,これを可能とするクエリの構造を精査した.また,医学系のユースケースに加え,基礎的な分子生物学データベースとして,特定の三次元構造をとらないまま機能をもつ天然変性タンパク質のDBをユースケースを考慮しながら,RDF設計を行った.特に天然変性タンパク質は,特定の構造を持たないため,一つのタンパク質に対し,複数の結合のパターンが存在しうることが知られている.そのために,天然変性タンパク質は複雑な生物学プロセスを通して,様々な病気の原因となりうるため,その生物学的プロセスをどのように蓄積し,どのように取り出すかについて考慮して設計した.天然変性タンパク質の生物学的プロセスのRDF設計については,SWAT4HCLS 2024で発表した. また,クローリングにより蓄積したRDFやその構造は,巨大になりがちであるが,これを高速にかつできるだけ小さな領域で保持できるよう,データの構造とアルゴリズムの設計を行い,従来手法でと比較した.具体的にはRDFにおいて,グローバルかつ一意なIDとして用いられるIRIについて,圧縮辞書の作成およびその検索アルゴリズムについて検討した.特に,簡潔構造のひとつであるLOUDSと辞書構造であるTrieを用いた手法を,FrontCodingなどと,圧縮率および検索時間について,比較を行った.そして,その結果,提案手法は検索速度において十分速く,圧縮率も高いことを示すことができた.この内容は,IJCKG 2023で発表した. さらに近年注目を集めている大規模言語モデルを用いたクエリの生成に着手し,これまで収集したユースケースの中で単純なものを選び,どの程度,プロンプトエンジニアリングにより適切にクエリを構築できるか,検討中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度はユースケースの収集を中心に行った.応用に近い分野である医学(希少疾患の診断支援)および,基礎に近い分野である分子生物学(天然変性タンパク質の生物学的プロセス)でそれぞれ,実用上どのようにRDFに対してクエリをかけるか,典型例を収集した.特に天然変性タンパク質のプロセスはクエリを考慮しつつRDFの設計を行った. また,クロールで収集したRDFを蓄積し,検索するために,簡潔構造による圧縮検索を提案した.
|
Strategy for Future Research Activity |
今年度収集したクエリの解析を進めたい.さらに,今年着手した,RDFに対するクエリと大規模言語モデルとの組み合わせを考えていきたい.特に,大規模言語モデルの出力は誤りを含むことが知られているが,RDFの中に正解が記述されていると考えた場合,その正解はどのようなクエリで取得可能かを調べていきたいと考えている. また,引き続き,ウェブのクローリングおよび構造解析は引き続き進めたいと考えている.
|