研究課題/領域番号 |
18K11547
|
研究機関 | 電気通信大学 |
研究代表者 |
兼岩 憲 電気通信大学, 大学院情報理工学研究科, 教授 (00342626)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | セマンティックウェブ / RDFデータ |
研究実績の概要 |
2020年度は、計算コストの高い機械学習の特徴抽出においてDBpediaなどの現実のリンクトデータを利用するために高速なRDFストアを実装した。このRDFストアは、研究代表者がこれまで開発してきたFROSTの改良版である。そのRDFストアは既に高いデータ圧縮と効率的な検索メカニズムを備えていたが、機械学習を想定したとき訓練データの生成に特化した機能が必要である。RDFデータは関係データベースなどとは異なりスキーマレスとグラフ構造により非常に柔軟なデータ構造を備えておりWebデータに有効であるが、その反面、直接データを機械学習へ適用することを難しくしている、従って、機械学習に必須となる訓練データを構築する際に、RDFデータから特徴ベクトルを抽出する検索処理を効率化した。その手法は、RDFストアにトリプル(RDFデータを構成する主語、述語、目的語からなる三つ組)を格納する際に、主語、述語、目的語という順にインデックスを作成していたのを、主語、目的語のみの順序にしている。これにより、RDFデータのグラフ構造を抽出するアルゴリズムの計算量が大きく減少した。前年度に開発したRDFデータからの特徴ベクトルの抽出をこのRDFストア上で再実装して、より高速に特徴ベクトルの構築ができることを実験して確認できている。 さらに本年度はRDFストアの開発に加えて、セマンティックWebデータを応用するために、ドメインオントロジーの構築と利用に着手しはじめた。オントロジーを利活用するために、記述論理による推論エンジンのプロトタイプを独自に実装してOWLオントロジーに対する概念の包摂関係を判定する実験を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
大規模なRDFデータセット(リンクトデータ)を機械学習に適用するためには、高速なRDFストアによってRDFデータの意味構造から効率的に特徴データを抽出しなければならない。本年度はRDFデータの特性(スキーマレスとグラフ構造)に特化したRDFストアの改良によって、特徴ベクトルを抽出する難しさを解決することができた。
|
今後の研究の推進方策 |
次年度以降は、セマンティックWebデータから検索や推論できなかった知識を補うために、訓練済みの学習器を用いて実データに不足している情報や知識を推定できる学習型推論システムを開発していく予定である。
|
次年度使用額が生じた理由 |
研究論文の投稿費用や一部実験用計算機の購入時期が遅れたので、次年度に残高を使用する。旅費、実験用計算機や書籍・文献の購入に使用する予定である。
|