研究課題/領域番号 |
18K11547
|
研究機関 | 電気通信大学 |
研究代表者 |
兼岩 憲 電気通信大学, 大学院情報理工学研究科, 教授 (00342626)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | セマンティックウェブ / RDFデータ |
研究実績の概要 |
2019年度は、リンクトデータの大規模性や多様性から学習・推論するためのプロトタイプの実装とその性能の分析を行った。
RDFデータセットから2値分類を行うための訓練データを用いて、RDFデータを構成する主語、述語、目的語からなる三つ組(トリプルと呼ぶ)から学習や推論に不要な部分をスキップして特徴ベクトル化する手法を開発した。この特徴ベクトルは、トリプルから様々な組み合わせで部分構造を取り出し対象データ(主語リソース)がそれぞれの部分構造をもつかどうかをベクトルの要素で表現する。その結果、性質の異なる多様なRDFデータに対して、機械学習(ニューラルネットワークなどの適用)に必要な特徴ベクトルを抽出できる。この抽出手法は、RDFデータ特有のデータ設計に基づいた特徴表現と情報利得率による特徴選別を用いている点が新しい。
本手法のプロトタイプを実装して、実際に正例と負例に分けたRDFの訓練データ(10種類のデータ)を用いて性能実験を行った。実験では、特徴ベクトルの次元、情報利得率、割引率などのパラメータを変えて深層ニューラルネットワークを用いて学習し、テストデータを用いて学習結果の正解率を分析した。その実験結果の分析により、実際のデータセットによって高い正解率をもたらす対象データを特徴付けるデータが、属性の種類(述語)、属性の値(目的語)や属性の種類と値(述語と目的語の組)などと異なることが明らかになっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
様々なRDFデータセット(リンクトデータ)を機械学習に適用するためには、各データセットから対象データに対する特徴データを抽出する必要がある。そのためデータセットから特徴ベクトルを抽出する新しい手法のプロトタイプを実装し実験することで、この後の開発に重要な知見と研究結果が得られた。
|
今後の研究の推進方策 |
次年度以降は、大規模かつ複雑なRDFデータセットから計算コストの高い特徴抽出やそれを用いた機械学習を現実時間で解くために、高速なRDFストアを実装していく予定である。
|
次年度使用額が生じた理由 |
研究発表のための旅費の使用時期、計算機や関連書籍の購入時期が遅れたので、次年度に残高を使用する。旅費、実験用計算機や書籍・文献の購入に使用する予定である。
|