2019 Fiscal Year Research-status Report
Machine Learning Methods for Cost Reduction in Label Collection by Crowdsourcing
Project/Area Number |
19K20277
|
Research Institution | University of Yamanashi |
Principal Investigator |
李 吉屹 山梨大学, 大学院総合研究部, 助教 (30726667)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | クラウドソーシング / ラベル付与 / コスト削減 / 機械学習 |
Outline of Annual Research Achievements |
本研究は,クラウドソーシングサービスを利用した大規模データへの高精度ラベル付与タスクにおいて,ラベル付与が必要なデータとワーカーの特質に着目することにより,サービス利用時のコストを抑えることが可能な機械学習法を提案する. (1).クラウドソーシングによって収集したデータの精製を行い,ラベル付与の曖昧さを極力排除する手法を開発した.多腕バンディットと困惑度に基づく探索法によるラベル収集の予算コスト削減法を提案した,各事例の必要なラベル数を推定して,ラベル収集のコストを削減と同時に,ラベルの有用性は保留できる. (2).テキストなどのメディア処理において実用レベルでの利用が十分可能な機械学習モデルを構築することを目的としているため,事例の内容に注目によって,カテゴリーラベルの回答統合方法をシーケンスラベルに対応できるように拡張した.クラウドソーシングによって収集したワードシーケンスの最初のデータセットを作成と公開した,ワードシーケンスの正解を作成のためワーカーの信頼性を考慮した回答統合法を提案した. (3).事例とワーカーの選出手法を提案した.これによりタスクに適した優秀なワーカーが,必要な事例のみにラベルを付与することが可能となり,低コストで高品質なラベル付きデータが生成できる.ラベルの推定に適していないワーカー,正しいラベル付けができないと見込まれるタスクを排除することによって,誤ったラベルを削除してデータ品質を向上させるモデルを提案した. 大規模データと多数のラベルを対象としたラベル付与においてトレードオフの関係にあるコスト削減と品質向上を同時に目指す点が挑戦的であり,独自性がある.本研究の成果は,近年脚光を浴びている深層学習などの教師付き機械学習において本質的な問題である学習データの作成に直接貢献することから,産業界における多様な分野での人工知能技術の実用化と進展が期待できる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の元計画:3つの課題である,一年目は課題1と2の調査と提案,国内会議発表が1編,一年半まで,課題1の開発と検証. 進捗状況:研究内容には当初の計画以上に進展した.すべての3つの課題に調査と提案があった,第1著書国際会議論文2編を発表した. (1).「データ精製」:多腕バンディットと困惑度に基づく探索法によるラベル収集の予算コスト削減法を開発した[1].各事例の必要なラベル数を推定して,ラベル収集のコストを削減と同時に,ラベルの有用性は保留できる.(2).「事例選択とワーカー選出」:ラベルの推定に適していないワーカー,正しいラベル付けができないと見込まれるタスクを排除することによって,誤ったラベルを削除してデータ品質を向上させるモデルを提案した.(3).「シーケンスラベルへ回答統合法の拡張」:テキストなどのデータ型において利用するために,事例のテキスト内容に利用によって,ワードシーケンスの正解を作成するためにワーカーの信頼性を考慮した回答統合法を開発した[2].データセットについても作成,公開した[2]. [1]. Jiyi Li, "Budget Cost Reduction for Label Collection with Confusability based Exploration", ICONIP 2019, pp.231-241, Dec. 2019. [2]. Jiyi Li, Fumiyo Fukumoto, "A Dataset of Crowdsourced Word Sequences: Collections and Answer Aggregation for Ground Truth Creation", AnnoNLP 2019 conjunction with EMNLP-IJCNLP 2019, pp. 24-28, Nov. 2019.
|
Strategy for Future Research Activity |
研究計画の3つの課題に今後の推進方策について, (1).「データ精製」:過去のタスクにおけるワーカーのパフォーマンスの情報に基づいて,専門家ワーカーの選出と回答統合方法を提案する[1].(2).「事例とワーカー選出」:A.2019年度提案した方法を開発と検証し,高度化して,国際会議論文を執筆と投稿する.B.クラウドソーシングによってラベル付けのコストを抑えるために,ラベルを付与するデータの量に注目し,データのラベルを推定することによって,ワーカーにラベル付けが必要な事例を提示する方法を提案する.(3).「シーケンスラベルへの拡張」:2019年度の論文の提案方法を改良して高度化する[2]. 2020年4月に採択された国際会議論文2編[1,2]について,2020年度内に発表する予定である. [1]. Jiyi Li, Yasushi Kawase, Yukino Baba, Hisashi Kashima, "Performance as a Constraint: An Improved Wisdom of Crowds Using Performance Regularization", the 29th International Joint Conference on Artificial Intelligence (IJCAI 2020). [2]. Jiyi Li, "Crowdsourced Text Sequence Aggregation based on Hybrid Reliability and Representation", 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2020).
|
Causes of Carryover |
購入予定の設備備品について,研究の進捗状況により,次年度に,よりスペックの高いもの(値段もより安くなる)を購入した方がよいと判断したため,次年度使用額とした.国内旅費について,新型コロナウィルスで予定していた3月の国内学会が現地で参加できなかったこと,および,アドバイザーとの打ち合わせが対面で実施できなかったことから,未使用額が発生した.また,クラウドソーシングによって調査と検証のための人件費および謝金については,過去に収集したデータを活用したため,未使用が発生した.次年度使用額については,GEFORCE TITAN RTX搭載のサーバーとGEFORCE RTX 2080Ti搭載のPCの購入費,国際会議等の参加旅費および2020年度に新しいデータを収集する必要があるため,その費用にあてる予定である.
|