2020 Fiscal Year Research-status Report
Machine Learning Methods for Cost Reduction in Label Collection by Crowdsourcing
Project/Area Number |
19K20277
|
Research Institution | University of Yamanashi |
Principal Investigator |
李 吉屹 山梨大学, 大学院総合研究部, 助教 (30726667)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | クラウドソーシング / ラベル付与 / コスト削減 / 機械学習 |
Outline of Annual Research Achievements |
2020年度すべての3つの課題で論文を発表した.国際会議論文4編を発表した(うち第1著者2編),国内会議論文1編を発表した.(1).「事例選択とワーカー選出」:ワーカーのパフォーマンスを正解回答を推測するためのグローバルな制約条件として利用する方法を提案した.この制約条件を既存統合法と組み合わせた正則化として利用する方法も提案した.本研究はトップ国際会議IJCAI2020に発表した.(2).「シーケンスラベルへ回答統合法の拡張」:多様な質を持つ複数のクラウドソーシングによるテキストを統合するために,事例に対する回答の局所的な信頼性と,ワーカー対するデータセットに全局的な信頼性というハイブリッド信頼性を取り込むことができる統合方法を提案した.局所的な信頼性については,テキストの類似性をテキストの埋め込みと単語列というハイブリッド表現から取り込む.本研究はトップ国際会議SIGIR2020に発表した.(3).「データ精製」:感情分布を持つ多様で信頼性の高い感情ラベルを効率的に収集するための新しい感情画像ラベル付与技術AffectIを提案した.部分的なランキングデータを収集するシステムを開発した,データの統合方法を提案した.選択,推定,インセンティブという3つの新しい機構を備えている.既存手法と比較して,より多様で信頼性の高いラベルを収集できるという点で優れていることを示した. 本研究はトップ国際会議MM2020,国内会議DEIM2021に発表した.クラウドから集められたアイデアの集合が与えられたとき,アイデアの価値に関する多様な潜在的評価基準を考慮したクラウドの評価者による選好比較に基づいて,優先順位をつけるために,少なくとも1つの潜在的評価基準の観点から最も優れたアイデアのサブセットを得るための方法を提案した.本研究はクラウドソーシング専門国際会議HCOMP2020に発表した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
現在まで3つの課題で論文発表した.IJCAI,SIGIR,MMなど人工知能分野におけるトップ国際会議とクラウドソーシング専門国際会議HCOMPを含む,国際会議論文6編を発表した(うち第1著者4編),国内会議論文1編を発表した.一つデータセットを公開した. (1).クラウドソーシングによって収集したデータの精製を行い,ラベル付与の曖昧さを排除する手法を開発した.多腕バンディットと困惑度に基づく探索法によるラベル収集の予算コスト削減法を提案した.部分的なランキングデータによって感情分布を持つ多様で信頼性の高く感情ラベルを効率的に収集するための感情画像ラベル付与技術を提案した. (2).事例とワーカーの選出について,ラベルの推定に適していないワーカー,正しいラベル付けができないと見込まれる事例を排除することによって,データ品質を向上させるモデルを提案した.ワーカーのパフォーマンスを制約条件及び正則化として利用する回答統合法を提案した. (3).多様なメディアにおいて実用レベルでの利用が十分可能な機械学習モデルを構築することを目的としているため,事例の内容に注目し,カテゴリーラベルの回答統合方法をシーケンスラベルに対応できるように拡張した.クラウドソーシングによって収集した単語シーケンスの最初のデータセットを作成し,公開した.単語シーケンスの正解を作成するため回答統合法を提案した.ハイブリッド信頼性とハイブリッドテキスト表現に基づく方法を提案した. 本研究は,大規模データと多数のラベルを対象としたラベル付与においてトレードオフの関係にあるコスト削減と品質向上を同時に目指す点が挑戦的であり,独自性がある.近年脚光を浴びている深層学習などの教師付き機械学習において本質的な問題である学習データの作成に直接貢献することから,産業界における多様な分野での人工知能技術の実用化と進展が期待できる.
|
Strategy for Future Research Activity |
研究計画の3つの課題に今後の推進方策について, (1).「データ精製」:クラウドソーシングによって収集したデータの精製を行い,ラベル付与の曖昧さを極力排除する手法を改良と高度化する.そのため,ワーカーの能力と事例の難易度を考慮したトリプレットデータの回答の統合方法を提案し,開発と検証し,国際会議論文を執筆し,投稿する. (2).「事例とワーカー選出」:これによりタスクに適した優秀なワーカーが,必要な事例のみにラベルを付与することが可能となり,低コストで高品質なラベル付きデータが生成できる.ラベルの推定に適していないワーカー,正しいラベル付けができないと見込まれるタスクを排除することによって,誤ったラベルを削除してデータ品質を向上させるモデルを改良と高度化する.そのため,ワーカーの関係と事例の関係を理解し,モデル化する方法を開発と検証する. (3).「シーケンスラベルへの拡張」:テキストなどのメディア処理において実用レベルでの利用が十分可能な機械学習モデルを構築することを目的としているため,事例の内容に注目し,カテゴリーラベルの回答統合方法をシーケンスラベルに対応できるように拡張した方法を改良と高度化する.そのため,2020年度発表したワードシーケンスの正解を作成するためワーカーの信頼性を考慮した回答統合法を改良して,複数のデータ種類を持つ他のシナリオへの拡張と高度化する.
|
Causes of Carryover |
理由について,新型コロナウィルスで予定していた3月の国内学会が現地で開催しなかった.使用計画について,クラウドソーシングによって新しいデータを収集する必要があるため,その費用にあてる予定である.
|
Research Products
(5 results)