2018 Fiscal Year Research-status Report
セマンティックWebデータの多様性に対する推論と学習の基盤技術
Project/Area Number |
18K11547
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
兼岩 憲 電気通信大学, 大学院情報理工学研究科, 教授 (00342626)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | セマンティックウェブ / RDFデータ |
Outline of Annual Research Achievements |
初年度は、本研究の目的である膨大なセマンティックWebデータから機械学習や推論を自動的に行うための問題点とその問題点を解決する方法論の基礎を分析した。
セマンティックWebのRDFデータは様々な分野や作成者によるデータセットから作られており、機械学習や推論への適用にはその多様性と冗長性が問題である。そうしたデータから推論・学習を実現するために、異なるデータセットを融合させる方法を提案した。特に、対象(エンティティ)の同一性を示すプロパティを用いて、DBpediaやWikidataなどの異なるデータをつなげて個々のデータセットでは推論できない検索を実現している。その際、複数のキーワードから出発してリンクトデータ(RDFのリンク構造)を辿って意味構造による検索結果を出力する。この意味構造は次年度以降のリンクトデータからの特徴抽出に寄与する技術である。
また、公開されているリンクトデータは膨大だが内容に偏りがあり、機械学習や推論に不足するデータが考えられる。その解決のために、自然言語テキスト文から自動的にRDFデータやオントロジーを作成する技術を進展させた。従来のように自然言語文から述語項構造を抽出する研究の発展として、文意を表した知識構造を名前空間を付与した知識データとして構築している。この研究成果により,生成されたRDFデータと公開済みのリンクトデータを合わせれば機械学習と推論の精度を向上させると考えられる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
多くの異なるリンクトデータを機械学習や推論で利活用するためには、各データセットに精通する必要がある。そのためデータセットの融合とその意味的検索を実装することで、重要な知見と研究結果が得られた。
|
Strategy for Future Research Activity |
次年度以降は、大規模で多様なリンクトデータからの機械学習と推論のプロトタイプを作成していく。リンクトデータに内在する本質的な特徴を捉えて学習や推論を実現する方法を開発する。
|
Causes of Carryover |
実験に必要な計算機や関連書籍の購入時期が遅れたので、次年度に残高を使用する。実験用計算機や書籍・文献を購入する予定である。
|