2019 Fiscal Year Research-status Report
セマンティックWebデータの多様性に対する推論と学習の基盤技術
Project/Area Number |
18K11547
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
兼岩 憲 電気通信大学, 大学院情報理工学研究科, 教授 (00342626)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | セマンティックウェブ / RDFデータ |
Outline of Annual Research Achievements |
2019年度は、リンクトデータの大規模性や多様性から学習・推論するためのプロトタイプの実装とその性能の分析を行った。
RDFデータセットから2値分類を行うための訓練データを用いて、RDFデータを構成する主語、述語、目的語からなる三つ組(トリプルと呼ぶ)から学習や推論に不要な部分をスキップして特徴ベクトル化する手法を開発した。この特徴ベクトルは、トリプルから様々な組み合わせで部分構造を取り出し対象データ(主語リソース)がそれぞれの部分構造をもつかどうかをベクトルの要素で表現する。その結果、性質の異なる多様なRDFデータに対して、機械学習(ニューラルネットワークなどの適用)に必要な特徴ベクトルを抽出できる。この抽出手法は、RDFデータ特有のデータ設計に基づいた特徴表現と情報利得率による特徴選別を用いている点が新しい。
本手法のプロトタイプを実装して、実際に正例と負例に分けたRDFの訓練データ(10種類のデータ)を用いて性能実験を行った。実験では、特徴ベクトルの次元、情報利得率、割引率などのパラメータを変えて深層ニューラルネットワークを用いて学習し、テストデータを用いて学習結果の正解率を分析した。その実験結果の分析により、実際のデータセットによって高い正解率をもたらす対象データを特徴付けるデータが、属性の種類(述語)、属性の値(目的語)や属性の種類と値(述語と目的語の組)などと異なることが明らかになっている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
様々なRDFデータセット(リンクトデータ)を機械学習に適用するためには、各データセットから対象データに対する特徴データを抽出する必要がある。そのためデータセットから特徴ベクトルを抽出する新しい手法のプロトタイプを実装し実験することで、この後の開発に重要な知見と研究結果が得られた。
|
Strategy for Future Research Activity |
次年度以降は、大規模かつ複雑なRDFデータセットから計算コストの高い特徴抽出やそれを用いた機械学習を現実時間で解くために、高速なRDFストアを実装していく予定である。
|
Causes of Carryover |
研究発表のための旅費の使用時期、計算機や関連書籍の購入時期が遅れたので、次年度に残高を使用する。旅費、実験用計算機や書籍・文献の購入に使用する予定である。
|