2021 Fiscal Year Annual Research Report
Machine Learning Methods for Cost Reduction in Label Collection by Crowdsourcing
Project/Area Number |
19K20277
|
Research Institution | University of Yamanashi |
Principal Investigator |
李 吉屹 山梨大学, 大学院総合研究部, 助教 (30726667)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | クラウドソーシング / ラベル付与 / コスト削減 / 機械学習 |
Outline of Annual Research Achievements |
2021年度は,国際会議論文2編(データマイニング分野における主要国際会議であるICONIP2021,ウェブ分野最難関トップ国際会議であるWWW2022)を発表した(うち第1著者2編),一つデータセットを公開した. クラウドソーシングによって収集したデータの精製を行い,ラベル付与の曖昧さを排除する手法を開発することにおいて,クラウドトリプレットラベルに対する回答統合法を提案した.人間のアイデアのような事例集合の俯瞰と解析において重要なのは類似度である.人間は相対的な判断が得意であるため,類似度の比較はトリプレット比較で行われる.クラウドソーシングにおいて,トリプレットラベルの正解を作成するため,ワーカーの能力と事例の難易度を考慮した回答統合法を提案した.クラウドソーシングによって収集したトリプレットの最初のデータセットを作成し,公開した.事例とワーカーを選出することによって,データ品質を向上させる方法を提案することにおいて,クラウドから収集した人間のテキストアイデアにおける,社会的な意思決定のために優先順位をつける解決策を提案するために,アイデア内容と優先度スコアの関係を構築に基づく優先度統合方法を提案した.一般的な既存の優先度統合方法は,ペアごとの優先度ラベルを利用するしかない.本トピックでは,アイデアのテキスト内容のような文脈情報と優先度スコアの外部関係または内部関係を構築することにより,同質的な設定と異質な設定の両方に対する方法を提案した. 本研究は,大規模データと多数のラベルを対象としたラベル付与においてトレードオフの関係にあるコスト削減と品質向上を同時に目指す点が挑戦的であり,独自性がある.近年脚光を浴びている深層学習などの教師付き機械学習において本質的な問題である学習データの作成に貢献することから,産業界における多様な分野での人工知能技術の実用化と進展が期待できる.
|