研究課題/領域番号 |
21K12148
|
研究機関 | 東京都市大学 |
研究代表者 |
山口 敦子 東京都市大学, その他部局等, 教授 (10346108)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 知識グラフ / 生命科学データベース / RDF |
研究実績の概要 |
効率の良いサンプリングからのスキーマ構造推定方法を確立するためには,サンプリングによるスキーマ構造の精度を評価する必要がある.スキーマ構造の精度の評価には,スキーマ構造の正解セットが必要なため,まず,生命科学分野の13のSPARQLエンドポイントから,従来の網羅的に構造を探索する方法で,RDFデータの正確なスキーマ構造の取得を試みた.13のうち,9つからは時間をかけて取得することができたが,4つはサーバが途中から応答しなくなるなどの理由から取得ができなかった.従来の方法でスキーマ構造が取得できた9つのRDFデータは,生命科学データとしては中程度のサイズのものが多く,最大のタンパク質配列データベースUniProtなどの巨大なRDFデータでは失敗していた.本研究のサンプリング手法は巨大なRDFデータの利用を想定したもののため,巨大なRDFデータの正解セットも必要である.そのため,巨大なRDFデータについては,データをダウンロードサイトからファイルとしてダウンロードして処理し,正解セットを作成することとした.そのため,巨大なRDFデータとしての評価対象は,ダウンロードが可能な3つ(UniProt, DBKERO, PubChem)のRDFデータに絞ることにした.これら3つのデータをダウンロードし,手元でクラス間関係などのスキーマ構造を計算することで,評価用の正解セットを得ることができた.また,サンプリングの基準となる,各クラスのインスタンス数やプロパティの利用数など,基本的な統計情報を得ることができた. また,生命科学分野で典型的に使われるSPARQLクエリのパターン収集の一環として,医学分野における診断支援アプリケーションにおけるクエリパターンを収集し解析を行った.その結果,ここで用いられるクエリはstarとpathの組み合わせで記述できることが分かった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
従来の網羅的な手法で取得した中程度のRDFデータのスキーマ構造に加え,巨大RDFデータのスキーマ構造をダウンロードしたファイルから計算し,正解セットとなる正確なスキーマ構造を得たことで,様々なサイズのRDFデータに対し,サンプリングの実験とその評価が可能となった.また,各クラスのインスタンス数などの,RDFデータに関する統計情報も得られたため,これらを利用したサンプリング方法の設計も可能となった. さらに,医学分野における診断支援アプリケーションにおけるクエリパターンがstarとpathの組み合わせという比較的単純な形で記述できることが分かった.このような調査をさらに進め,生命科学分野全体でどのようなクエリパターンの組み合わせで記述可能であるかが明らかになれば,最終目的となる効率的な知識グラフの検索システムの実現に近づくことになる.
|
今後の研究の推進方策 |
スキーマ構造を効率よく取得するために,クラスごとにある割合で頂点をサンプリングする,プロパティごとに一定数をサンプリングしてその両端の頂点のクラスを調べるなど,様々なサンプリング手法を試す。そして,その結果を今年度作成した巨大データの正解セットと比較する.サンプリングの評価の際に,ウェブ上のSPARQLエンドポイントを利用すると,データのアップデートにより正解セットとウェブ上のデータとにずれができる可能性があり,また,相手側のサーバにも負担をかけることになるため,ダウンロードしたRDFデータを用いてSPARQLエンドポイントを立てて実験する予定である. また,クエリパターンの収集を医学以外の生命科学分野にも広げ,実際のアプリケーションで利用されているクエリが本質的にどのような形状で記述可能であるかの調査を進めていく予定である.
|
次年度使用額が生じた理由 |
国際会議への参加を予定し,そのための旅費を予算に入れていたが,参加したいずれの国際会議もオンライン開催であり,旅費を使う必要がなかったため,使用額に差異が生じた.新型コロナの状況が好転すれば,国際会議参加によって利用する.さらに,国内学会やワークショップ参加によって利用する予定である.
|