Machine Learning Methods for Cost Reduction in Label Collection by Crowdsourcing
Project/Area Number |
19K20277
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60080:Database-related
|
Research Institution | University of Yamanashi |
Principal Investigator |
Li Jiyi 山梨大学, 大学院総合研究部, 助教 (30726667)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Project Status |
Completed (Fiscal Year 2021)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2021: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2020: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2019: ¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
|
Keywords | クラウドソーシング / ラベル付与 / コスト削減 / 機械学習 |
Outline of Research at the Start |
本研究は, クラウドソーシングサービスを利用した大規模データへの高精度ラベル付与タスクにおいて, ラベル付与が必要なデータとワーカーの特質に着目することにより, サービス利用時のコストを抑えることが可能な機械学習法を提案する. 本研究は, 大規模データと多数のラベルを対象としたラベル付与においてトレードオフの関係にあるコスト削減と品質向上を同時に目指す点が挑戦的であり, 独自性がある. 本研究の成果は, 近年脚光を浴びている深層学習などの教師付き機械学習において本質的な問題である学習データの作成に直接貢献することから, 産業界における多様な分野での人工知能技術の実用化と進展が期待できる.
|
Outline of Final Research Achievements |
The objective of this study is to propose machine learning methods that can reduce the cost of using the crowdsourcing service in the task of accurately annotating large-scale data for various media processing, such as text and images. We proposed methods for disambiguating label assignment by refining data collected through crowdsourcing. We proposed methods to improve data quality by selecting instances and workers. In order to build models in various media, by incorporating the content of the instances, we extended the methods of answer aggregation with categorical labels so that it can handle diverse data types such as sequences. We have published 8 papers at international conferences including the top international conferences on artificial intelligence such as IJCAI, WWW, SIGIR, and MM.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究は,大規模データと多数のラベルを対象としたラベル付与においてトレードオフ関係にあるコスト削減と品質向上を同時に目指す点が挑戦的であり,独自性がある.テキストや画像など実用レベルで利用可能な機械学習モデルを提案することであり,ペアワイズラベル及びシーケンスラベルへの拡張にも挑戦する.ラベル付与で生じる問題点は,機械学習及び自然言語処理など人工知能分野にも還元することができることから,学術的意義は極めて大きい.近年脚光を浴びている深層学習などの教師付き機械学習において本質的な問題である学習データの作成に直接貢献することから,産業界における多様な分野での人工知能技術の実用化と進展が期待できる.
|
Report
(4 results)
Research Products
(12 results)