研究課題/領域番号 |
18K11315
|
研究機関 | 京都大学 |
研究代表者 |
清水 敏之 京都大学, 情報学研究科, 助教 (60402468)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | データベース / 問合せ / データクリーニング |
研究実績の概要 |
部分データを問合せで表現し、データの理解支援を行う応用として、データクリーニングを想定して研究を推進した。データ分析のために機械学習の利用が盛んに行われているが、機械学習を行うためには、空値の補填や値に一貫性をもたせるなどのデータ整備が重要となる。そのため、Data Wranglingとして機械学習に向けたデータクリーニングが着目されている。特に、科学データに対するメタデータ等では、表記ゆれや誤記、記入漏れが多いデータになる傾向があるが、専門性の高いデータでは機械的な修正が困難であり、人が確認して修正する必要がある。しかし、大量のデータを全て閲覧するのは現実的ではないため、不整合な値や不適切な値を含む部分を問合せで表現し、関係データベースにおけるビューとして着目すべき部分を切り出して提示することで、データ管理者による修正を補助する仕組みを提案した。提案した枠組みでは、ビューに対応する問合せの条件式を利用して、少しずつ条件を変更しつつビュー遷移を行うことで探索的に部分データを閲覧することを考えており、地球科学分野のデータセットに対する実際の科学メタデータを観察し、実例に基づいた有用事例の議論を行った。さらに、データの修正の際に得られた知見の利活用方法や、不整合な値の検出手法として関数従属性の発展させた概念であるCFD(Conditional Functional Dependency)の利用について検討した。これらの成果は論文として取りまとめ、国内の研究会において発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実際のデータを観察しつつ、データクリーニングという具体的な応用を想定して研究を進めることができた。また、CFD(Conditional Functional Dependency)や近年のインタラクティブなデータクリーニング手法に関するサーベイを行い、関連する技術に関する知見を得ることができた。データクリーニングの応用については枠組みの提案を行ったが、部分データ表現のための具体的な問合せを自動的に取得する手法の確立には至っておらず、今後の課題となっている。
|
今後の研究の推進方策 |
データクリーニングの応用に関して、不整合な値の検出手法の実装を行い、データクリーニングに適切な部分データ表現のための問合せの取得について研究を行う。実データとして、現在、観察に用いている科学メタデータ以外のデータについても調査し、有用な事例をさらに検討する。
|
次年度使用額が生じた理由 |
計算機資源の購入を想定していたが、今年度に主に実データとして研究に用いた科学メタデータは、複雑なデータではあるもののデータサイズが大きいものではなかったため、既存の計算機環境で扱うことができた。新規の計算機資源の購入は、より大規模なデータを扱う際に行うのが適切であると考えた。
|