• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

問合せに着目したデータの理解支援に関する研究

Research Project

Project/Area Number 18K11315
Research InstitutionKyoto University

Principal Investigator

清水 敏之  京都大学, 情報学研究科, 助教 (60402468)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsデータベース / 問合せ / データクリーニング
Outline of Annual Research Achievements

部分データを問合せで表現し、データの理解支援を行う応用として、データクリーニングを想定して研究を推進した。データ分析のために機械学習の利用が盛んに行われているが、機械学習を行うためには、空値の補填や値に一貫性をもたせるなどのデータ整備が重要となる。そのため、Data Wranglingとして機械学習に向けたデータクリーニングが着目されている。特に、科学データに対するメタデータ等では、表記ゆれや誤記、記入漏れが多いデータになる傾向があるが、専門性の高いデータでは機械的な修正が困難であり、人が確認して修正する必要がある。しかし、大量のデータを全て閲覧するのは現実的ではないため、不整合な値や不適切な値を含む部分を問合せで表現し、関係データベースにおけるビューとして着目すべき部分を切り出して提示することで、データ管理者による修正を補助する仕組みを提案した。提案した枠組みでは、ビューに対応する問合せの条件式を利用して、少しずつ条件を変更しつつビュー遷移を行うことで探索的に部分データを閲覧することを考えており、地球科学分野のデータセットに対する実際の科学メタデータを観察し、実例に基づいた有用事例の議論を行った。さらに、データの修正の際に得られた知見の利活用方法や、不整合な値の検出手法として関数従属性の発展させた概念であるCFD(Conditional Functional Dependency)の利用について検討した。これらの成果は論文として取りまとめ、国内の研究会において発表を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

実際のデータを観察しつつ、データクリーニングという具体的な応用を想定して研究を進めることができた。また、CFD(Conditional Functional Dependency)や近年のインタラクティブなデータクリーニング手法に関するサーベイを行い、関連する技術に関する知見を得ることができた。データクリーニングの応用については枠組みの提案を行ったが、部分データ表現のための具体的な問合せを自動的に取得する手法の確立には至っておらず、今後の課題となっている。

Strategy for Future Research Activity

データクリーニングの応用に関して、不整合な値の検出手法の実装を行い、データクリーニングに適切な部分データ表現のための問合せの取得について研究を行う。実データとして、現在、観察に用いている科学メタデータ以外のデータについても調査し、有用な事例をさらに検討する。

Causes of Carryover

計算機資源の購入を想定していたが、今年度に主に実データとして研究に用いた科学メタデータは、複雑なデータではあるもののデータサイズが大きいものではなかったため、既存の計算機環境で扱うことができた。新規の計算機資源の購入は、より大規模なデータを扱う際に行うのが適切であると考えた。

  • Research Products

    (1 results)

All 2019

All Presentation (1 results)

  • [Presentation] ビューに基づくデータクリーニング方式の提案2019

    • Author(s)
      大森 弘樹, 清水 敏之, 吉川 正俊
    • Organizer
      第11回データ工学と情報マネジメントに関するフォーラム

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi