研究課題/領域番号 |
18K11315
|
研究機関 | 京都大学 |
研究代表者 |
清水 敏之 京都大学, 情報学研究科, 助教 (60402468)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | データベース / 問合せ / データクリーニング |
研究実績の概要 |
部分データを問合せで表現してデータの理解支援を行う応用として、昨年度から引き続きデータクリーニングを想定した研究を推進した。データ中の不整合な値の候補を発見し、データ管理者に対して不整合な値の候補を問合せを利用したビューを用いて提示することで、データ管理者がデータに対する理解を深めつつ効率よく不整合な値の修正を行うことを想定している。昨年度に提案したエンティティ解決手法を応用した不整合検出手法について、手法の洗練を進め、実データを用いた定量的評価を行った。さらに、計算コストの削減手法を検討し、検出結果への影響を観察した。手法の評価にあたっては、本研究で実データとして用いている科学メタデータを対象とし、評価のためのデータセットの作成を行い、既存のデータクリーニング手法と比較して再現率の向上を確認した。また、エラー検出評価のための既存のデータセットを用い、提案手法をエラー検出手法としてとらえた際の既存手法に対する再現率の向上も同様に確認した。再現率の向上は、専門性の高い科学メタデータなどに対して、データ管理者の確認を踏まえて値の修正を行う枠組みを考えている本研究において重要であると考えている。さらに、複数のシステムでデータ共有を行う際に、データクリーニングなどによって生じる値の更新を適切に管理するための枠組みについて検討した。これらの成果は論文にまとめ、国内の研究会において発表を行った。不整合検出手法のさらなる洗練や、検出された不整合候補を利用したビュー提示について今後さらに検討を行う予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
提案した不整合検出手法の洗練や計算コスト削減の検討を行い、実データを用いた評価用のデータセットを作成して手法の定量的評価を行うことができた。しかし、検出された不整合候補を基に、データ管理者に対して問合せを利用したビュー提示を行う手法の開発が課題として残っている。
|
今後の研究の推進方策 |
不整合検出手法のさらなる洗練や、検出された不整合候補を利用したビュー提示について今後さらに検討を行う予定である。検出された不整合のうち関連するものを適切にまとめて提示することを検討している。
|
次年度使用額が生じた理由 |
実験のための計算機資源購入などを予定していたが、適切なタイミングでの機器の入手に困難があり、既存の計算機環境の利用で対応した。また、昨年度に引き続き、会議に関してオンライン参加で対応できることが多く、旅費の使用額が少なくなった。計算機資源購入および研究成果発表のために使用する予定である。
|