研究課題/領域番号 |
18K11315
|
研究機関 | 九州大学 |
研究代表者 |
清水 敏之 九州大学, 附属図書館, 准教授 (60402468)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | データベース / 問合せ / データクリーニング |
研究実績の概要 |
部分データを問合せで表現してデータの理解支援を行う応用として、データクリーニングを想定した研究を推進した。本研究で実データとして想定している科学メタデータは、専門性が高い語を多く含み、複数人が自由記述形式で入力を行う場合もあるため、誤字や表記揺れが含まれやすく、自動的な修正が困難だと思われる不整合も多く含まれる。このような科学メタデータに適したデータクリーニング手法として、データ中の不整合な値の候補を検出し、不整合な値の候補を含む部分データを、問合せを利用したビューを用いてデータ管理者に提示することで、データ管理者がデータに対する理解を深めつつ効率よく不整合な値の修正を行うことを考えている。これまでに科学メタデータへの適用を想定した不整合候補検出手法を考案してきたが、今年度は検出された不整合候補を利用し、ビュー提示を行う具体的な手法に関する研究を推進した。検出された不整合候補から類似した不整合をグルーピングし、トピックに基づいてタプルを分類することでデータ管理者に提示するビューを作成する手法を考案した。提案した手法により、精度を大きく悪化させることなくビュー提示が可能になることを確認した。さらに、複数のデータベース間でデータ共有を行うにあたり、データクリーニングなどによって値の更新が起こることも踏まえ、意図しないデータ共有・更新を行わないようにするために、条件を設定して輸出入するデータをフィルタリングする仕組みについても実装を含めて研究を推進した。これらの成果は論文にまとめ、国内の研究会において発表を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
基本的なビュー提示手法の開発を行うことができたが、手法の洗練と評価の高度化が課題である。研究代表者の所属研究機関の変更や、新型コロナウイルス感染症の拡大にあたり、関係者との研究に関する効率的な議論や手法開発および実験用の計算機資源入手に関する困難もあった。
|
今後の研究の推進方策 |
手法の洗練および評価の高度化を行い、全体を論文としてまとめる予定である。
|
次年度使用額が生じた理由 |
手法開発や実験のための計算機資源の購入などを予定していたが、適切なタイミングでの機器の入手に困難があった。また、会議・打合せに関してはオンライン参加により旅費の支出が無かった。計算機資源購入および研究成果発表のために使用する予定である。
|