2021 Fiscal Year Research-status Report
機械学習の訓練データ検証のための対話的可視化手法の研究
Project/Area Number |
20K11917
|
Research Institution | Ochanomizu University |
Principal Investigator |
伊藤 貴之 お茶の水女子大学, 基幹研究院, 教授 (80401595)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 可視化 / 訓練データ / アノテーション |
Outline of Annual Research Achievements |
1つ目の研究として、前年度に引き続き、訓練データの「アノテーションの半自動化」のための可視化に取り組んだ。この研究では、訓練画像データの一部に対して10名程度の参加者にアノテーション作業を実施し、画像データの特徴量とアノテーション結果の関係から決定木を自動生成した。続いて残りの訓練画像データについて、決定木を利用してアノテーションを自動付与した。決定木およびアノテーション付与結果の可視化機能を用いることで、アノテーションが適切に付与されているかを検証できる。この成果は国際会議で講演されており、さらに国内会議で表彰されている。 2つ目の研究として、前年度に引き続き、「複数の訓練データの比較」のための可視化に取り組んだ。具体的には複数の訓練画像データから特徴量を算出し、同一の次元削減処理を施して単一の画面に表示し、さらにデータセットごと・ラベルごとに色分け表示することでその分布の違いを表現する。次元削減された特徴量は点群として表示されるので、その点群が塊を構成する部分を強調表示するか、あるいは塊から外れた点群を強調表示することで、複数の訓練データ間の分布の違いを可視化する。この成果も国際会議で講演されている。 3つ目の研究として、本年度は新しく、「アノテーション付与工程の観察」に取り組んだ。具体的には訓練データを構成する多数の画像の各々に複数の作業者がアノテーションを付与する作業のログをとり、アノテーションの信頼度を算出し、それと作業所要時間の関係を可視化している。結果として、アノテーション作業の初期段階には信頼度が低い傾向があること、特定のラベル付与において信頼性が低下しやすいことなどを発見した。この成果は国内学会で表彰されている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
1つ目の「アノテーションの半自動化」については、決定木生成によるアノテーション過程の半自動化・および決定木とアノテーション結果の可視化を全て実装し、システムとして完成させると同時に、ユーザ評価実験まで完了している。ユーザ評価は「機械学習の習得者」「可視化の習得者」「初心者」の3グループの参加者を招いて実施し、3者のユーザビリティに差異があることを確認した。このようなユーザ評価は当該分野において非常に有用な知見であり、想定以上の成果をあげていると考えてよい。今年度は査読付き学会に投稿することで研究を完了させたい。 2つ目の「複数の訓練データの比較」に関しては、比較可視化のコア機能について実装し、ユーザ評価実験も実施した。ただし本手法には、2個の訓練データを比較する可視化には向いているが、3個以上の訓練データを視認性の高い形で同時に可視化することは難しい。次年度はこの問題について検討したい。ただし、この問題は本研究課題に可視化という学術分野の共通の課題であり、完全な解決には難航が予想される。 3つ目の「アノテーション付与工程の観察」は、3人の参加者を対象としてアノテーション作業を実施し、その結果を可視化するところまで到達した。アノテーション作業の観察はヒューマンコンピュテーションという研究分野における重要な課題であり、それに対して一定の知見をもたらしたことは想定通りの成果であると考えられる。今年度は参加者の人数を増やすなどの形で実験を重ねると同時に、査読付き学会への投稿を目指したい。
|
Strategy for Future Research Activity |
本研究課題が想定する実装や実験は2年目までかなりの部分を終えている。最終年度である今年度は、実験環境を拡張してさらに信頼性の高い実験を実施するとともに、研究内容を全体的にサーベイしなおし、査読付き学会への投稿を強化したい。 1つ目の「アノテーションの半自動化」については、現状では衣類画像を対象としてアノテーションの半自動化を実施しているが、衣類画像以外のコンテンツでも実験を進めることが考えられる。あるいは特徴量算出手法の再考なども課題として考えられる。さらに査読付き国際会議および雑誌への投稿を検討したい。 2つ目の「複数の訓練データの比較」については、3個以上の訓練データを視認性の高い形で同時に可視化する手法に就いて議論したい。さらに査読付き雑誌への投稿を検討したい。 3つ目の「アノテーション付与工程の観察」については、被験者を増やして実験結果を拡張することで、アノテーションの信頼度算出の過程を強化したい。さらに査読付き国際会議への投稿を検討したい。 最後に、この3つの研究の統合の可能性についても検討したい。アノテーション付与工程を観察した上で残りのアノテーションを半自動化し、さらに同等の工程によって構築された複数の訓練データを比較する、といったことが考えられる。
|
Causes of Carryover |
コロナ禍の影響で学会発表が対面開催からオンライン開催に急きょ変更になる事例が続出し、旅費の執行が減ったため。次年度は対面開催の学会が増えると予想されるため、主に旅費として計上したい。
|
Research Products
(9 results)