Interactive visualization for verification of training data for machine learning
Project/Area Number |
20K11917
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61020:Human interface and interaction-related
|
Research Institution | Ochanomizu University |
Principal Investigator |
Takayuki Itoh お茶の水女子大学, 基幹研究院, 教授 (80401595)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2020: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
|
Keywords | 可視化 / 訓練データ / アノテーション / 機械学習 / ヒューマンファクタ― |
Outline of Research at the Start |
本研究では機械学習のための訓練データの内容を利用者が検証し理解するための可視化手法について研究する.特に,複数の作業者による訓練データへの注釈の揺れに着目した可視化手法,テストデータにおける誤動作と訓練データの対応に着目した可視化手法,といった2種類の可視化手法を実現する.本研究の目標は,訓練データと作業者の関係,テストデータにおける誤動作と訓練データとの関係,といった複合的なデータに対して可読性と対話操作性の高い可視化手法を確立すること,訓練データ作成時の作業者の一貫性や不完全さに関するヒューマンファクタを発見すること,である.
|
Outline of Final Research Achievements |
This research focused on the depelopment of various methods to support the construction of high-quality training data for machine learning, by visualizing the distribution and creation process of the training data. As the results, we proposed the following three types of visualization methods: 1) Semi-automation of the annotation process of training data and visualization of the results of the construction and operation of the decision tree that serves as the basis for the annotation process; 2) Comparative visualization of distributions of features and labels of multiple training data; and 3) Visualization of the annotation process by multiple workers and verification of the reliability of the annotations.
|
Academic Significance and Societal Importance of the Research Achievements |
大規模で複合的な訓練データの分布や制作過程を視認性の高い形で情報提示する手法の開発は、可視化の研究における学術面での本質的な課題であり、これを解くことに学術的意義があった。一方で、機械学習の普及により訓練データの品質は社会的に大きな課題となっている。訓練データ制作の半自動化による信頼性の向上、複数の訓練データ間での特徴量やラベルの分布の検証、訓練データの制作過程での各作業者による工程の信頼性の検証、といった各課題は機械学習の品質を向上するために重要な課題であり、これらの解決には大きな社会的意義があった。
|
Report
(4 results)
Research Products
(19 results)