2017 Fiscal Year Research-status Report
大規模グラフデータからスキーマを抽出するための外部記憶アルゴリズムの開発
Project/Area Number |
17K00150
|
Research Institution | University of Tsukuba |
Principal Investigator |
鈴木 伸崇 筑波大学, 図書館情報メディア系, 准教授 (60305779)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | グラフデータ / スキーマ抽出 |
Outline of Annual Research Achievements |
本研究の目的は,大規模グラフデータからスキーマを抽出するための外部記憶アルゴリズムを開発することである.スキーマは,クラスの集合として構成され,スキーマ間には辺が設けられる.このようなスキーマを抽出する際には,ノードがどのクラスに属すべきかを表す指標を設け,その値が高いクラスにノードを割り当てるものとする.まず,本研究では,この指標として局所効用関数(local utility function)を新たに定義した.その理由は,調査検討の結果,従来の効用関数(utility function)は計算コストが大きく,大規模グラフデータからのスキーマ抽出には適さないことがわかったためである.局所効用関数は,従来の効用関数より計算コストが小さく,かつ同程度の品質のスキーマが抽出可能である.次に,この局所効用関数を用いて,グラフデータからスキーマを抽出するための外部記憶アルゴリズムを定義した.このアルゴリズムは,I/Oコストを抑制するために,グラフデータを逐次的に読み込みながらスキーマ抽出を行う.より具体的には,ソートされたグラフファイルを逐次的に読み込み,各ノードに対して局所効用関数を計算し,そのノードが属するクラスを決定している.なお,このアルゴリズムは,スキーマもグラフとして表しているが,近年,RDFデータを中心により表現力の高い Shape Expression Schema (ShEx)が用いられている.そこで,グラフデータから ShExを抽出する問題についても考察を開始し,この問題がNP困難であることを示している.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の予定では,グラフデータからのスキーマ抽出問題の計算困難性を証明し,より効率の良いスキーマ抽出するアルゴリズムを開発することが当該年度の目標であった.スキーマ抽出問題の計算困難性については,スキーマが Shape Expression Schema の場合においては証明済みである.また,スキーマ抽出アルゴリズムに関しては,抽出されるスキーマはグラフであるが,既存の効用関数において計算コストを要する部分を明らかにし,より効率のよい 局所効用関数を新たに定義しており,さらに局所効用関数に基づいてスキーマ抽出を行う外部記憶アルゴリズムを構成している.総合的に考えると,本研究はおおむね順調に進展していると考えている.
|
Strategy for Future Research Activity |
開発したスキーマ抽出アルゴルズムを実装し,評価実験を行う.本アルゴリズムは,ファイルの操作に関しては,逐次的なファイルの読み込みとソートのみであるため,どの高級言語でも実装は可能であると考えられる.そのため,生産性の高いRubyを用いて実装を行う予定である.実装されたアルゴリズムを用いて,(i)アルゴリズムの動作効率,(ii)メモリ消費量,(iii)抽出されたスキーマの品質,などについて実験的に評価する.
|
Causes of Carryover |
次年度使用額が生じた理由は,旅費が予定よりやや少ない費用で済んだためである.ここで生じた次年度使用額については,今年度(2018年度)に旅費として使用する予定である.
|