研究課題/領域番号 |
18K11315
|
研究機関 | 京都大学 |
研究代表者 |
清水 敏之 京都大学, 情報学研究科, 助教 (60402468)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | データベース / 問合せ / データクリーニング |
研究実績の概要 |
部分データを問合せで表現してデータの理解支援を行う応用として、昨年度から引き続きデータクリーニングを想定した研究を推進した。科学データに対するメタデータなどの専門性の高いデータについては、不整合な値があった場合に、人が確認しつつ修正する必要があると考え、不整合な値の候補を含む部分データを関係データベースにおけるビューとして取得し、データ管理者の確認を踏まえてインタラクティブにデータクリーニングを行う方式について整理を進めた。その際、関係データ中の不整合な値の候補を得るために、エンティティ解決手法を応用した不整合検出手法を提案した。特に本研究で実データとして想定した科学メタデータにおける不整合は、データの専門性の高さやデータ量の少なさの問題から機械学習に基づく判定が困難であり、ルールベース手法の考え方に基づきつつも単語の分散表現を用いることで柔軟な判定が可能になると考えた。提案手法は再現率を重視した手法であると考えることができ、インタラクティブなデータクリーニングと相性がよいと考えている。実際の科学メタデータを対象として提案した不整合検出手法を適用し、不整合な値の候補が抽出できることを確認した。これらの成果は論文として取りまとめ、国際ワークショップおよび国内研究会において発表を行った。不整合検出手法の洗練と、検出された不整合候補からの適切なビューの生成手法について今後さらに検討を行う予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実際の科学メタデータを用いて研究を推進することで、実ニーズに基づいた議論を行うことができた。不整合検出については具体的な手法を提案し、実データを用いた実験を行うことができた。また、成果については論文発表を行った。
|
今後の研究の推進方策 |
データクリーニングの応用に関して、不整合検出手法の提案を行ったが、その洗練と定量的評価を行う予定である。また、より実用的な枠組みとするために、検出された不整合候補からの適切なビューの生成手法について今後さらに検討を行う。
|
次年度使用額が生じた理由 |
特に会議参加旅費について、国内開催の国際ワークショップ参加や、オンライン開催の会議への参加が主となり、想定よりも使用額が少なくなった。実験のための計算機資源購入および研究成果発表のために使用する予定である。
|