2019 Fiscal Year Research-status Report
大規模データ分析のための多視点分析管理システムの研究開発
Project/Area Number |
18K18056
|
Research Institution | Nagoya University |
Principal Investigator |
駒水 孝裕 名古屋大学, 情報基盤センター, 助教 (30756367)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | Linked Open Data / Entity Linking / Entity Search / Imbalanced data / Classification / データ分析 / 多視点分析 / OLAP |
Outline of Annual Research Achievements |
今年度における本研究課題では,外部知識と結びつけを行うためのエンティティリンキングに関する研究を推進した. 昨年度の研究の継続として,エンティティ検索タスクに取り組んだ.グラフの特徴を取り込んだエンティティ検索手法,RWRDoc と PPRSD の統合に関して研究を推進し,既存手法よりも高い検索性能を実現した.この研究について,査読付き国際論文誌に採択された. また,エンティティリンキングにおいて,エンティティのデータ中における出現頻度がその性能に影響を与えることが知られている.具体的には,データ中での出現頻度が低い mention(エンティティを表す文字列)ほど,正しいエンティティとのリンキングが困難になる.これは,エンティティリンキングを分類問題と捉えると,不均衡データ問題に当たる.この問題は,分類ラベルごとのデータが偏ったデータセットを学習に用いると,多数派のラベルを出力しやすくなる問題である.この問題に対し,広く用いられるアンダーサンプリングの適用する手法を提案した.提案手法では,過剰アンダーサンプリングを提案し,複数のアンダーサンプリング比率を適切に組み合わせることで不均衡データに対する分類性能を向上させた.この研究について,査読付き国内会議および査読なし国内会議にそれぞれ1件ずつ報告し,合計4つの賞を授与された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題における研究課題の一つであるエンティティリンキングに関する研究を進めた. 上記のように,対象となるキーワードに対し対応するエンティティを発見するという目的は十分に達成できていると考えられる.エンティティリンキングにおいて重要である再現率重視の手法を構築し,その上で適合率を向上させる手法を組み合わせた.この組み合わせにより,既存研究よりも高い検索性能を達成した.これらのことから本研究課題が概ね順調に進展していると自己評価する.
|
Strategy for Future Research Activity |
今年度の積み残しとなった機能要件や性能要件の実現に向けた研究を進めるとともに,多視点分析の自動化に関する実現方式の実現を本格化する. 多視点分析の自動化については,既存の研究をベースにより高度な分析の実現方法の検討を進める.また,同時に自動分析の高速化についても検討を進める.
|
Causes of Carryover |
新型コロナウイルス感染症の世界的大流行の影響で予定してた出張がキャンセルされたり,計算機の納期が遅れたため,次年度使用額が発生した. 次年度仕様学は,研究促進のために計算資源の追加および研究成果発表のための出張や,広く公開するためのデータ整備・公開のために使用する.
|