2020 Fiscal Year Research-status Report
機械学習の訓練データ検証のための対話的可視化手法の研究
Project/Area Number |
20K11917
|
Research Institution | Ochanomizu University |
Principal Investigator |
伊藤 貴之 お茶の水女子大学, 基幹研究院, 教授 (80401595)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 訓練データ / 可視化 |
Outline of Annual Research Achievements |
2020年度の本研究では主に、機械学習の訓練データ作成のためのソフトウェア開発に注力した。一方でコロナ禍の影響により、教職員も学生も在宅中心の研究を強いられたことから、被験者を交えたユーザ実験は2021年度以降に繰り越すことにした。以下、本研究で開発した3つのソフトウェアについて説明する。 1つ目は「SD法による画像印象のタグ付けを支援する可視化」である。画像の印象を推測する機械学習の構築において、各画像の印象をタグ付けする作業が生じる。ここでタグ付け作業者が有する印象には個人差があることから、あらかじめ回収した多人数による印象回答値から各画像の印象を推定する決定木を構築し、それを可視化することで画像印象の半自動的なタグ付け工程を確認するシステムを開発した。 2つ目は「訓練データ比較のための可視化」である。機械学習の工程で複数の訓練データを扱う機会がある。例えば例えば転移学習において、ソースデータとターゲットデータの質の違いが訓練後のモデルの精度を下げることが知られている。このような問題を解決するために、複数の訓練データの特徴量分布の違い、また同一ラベルを付与された個体間の分布の差異などを比較可視化するツールを開発した。 3つ目は高校生向けオンラインデータサイエンス教材開発の一環で開発した「判別分析のための訓練データクレンジング体験のオンライン教材」である。このオンライン教材では訓練データの特徴量分布をブラウザ上で可視化し、その画面上でデータ中の例外的な個体を削除することで判別分析の精度が向上するのを体験させるものである。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本課題では「複数の作業者による注釈内容を可視化する」「訓練データ中の注釈と判別結果の分布」の2つの課題について可視化を進めることになっていた。本研究で2020年度に開発した3種類のソフトウェアのうち「SD法による画像印象のタグ付けを支援する可視化」「判別分析のための訓練データクレンジング体験のオンライン教材」の2事例が前述の2つの課題に対するソフトウェアである。順調に開発が進んでいるという意味で本研究は順調に進行していると言える。さらに「訓練データ比較のための可視化」という別の課題にも着手していることから、本課題では当初の想定以上に幅広いソフトウェア開発を進めていることになる。 一方で、コロナ禍の影響で学生の大半が在宅での学習・研究を強いられるという想定外の状況が生じたこともあり、学生被験者を交えたユーザ実験がほとんど着手できていない。「判別分析のための訓練データクレンジング体験のオンライン教材」については附属高等学校にてユーザ実験を実施したものの、高校の規則によりログデータを使うことができなかったため、ユーザ実験もやり直しが必要となった。そのため2021年度はソフトウェアの開発のみならずユーザ実験にも注力する必要がある。
|
Strategy for Future Research Activity |
本課題では昨年度までに開発した3種類のソフトウェアについて、適用事例やユーザ評価実験を進めることで、その有効性を検証するとともに、ソフトウェアの改善や拡張も試みる。 「SD法による画像印象のタグ付けを支援する可視化」については、現在用いているファッション画像の規模(枚数やタグの種類)を拡大してシステムのスケーラビリティを検証したい。さらに大規模なユーザ評価実験を実施することで、訓練データ画像へのタグ付けに関するユーザの行動の違いを観察し、システムのさらなる改善や拡張のための参考にしたい。 「訓練データ比較のための可視化」に関しては、まだ開発に際して完成していない点があるので、その完成を目指したい。また、本手法は2,3種類の訓練データ、10種類程度のラベルの比較が可能であるが、それ以上の訓練データ数やラベル数を有する比較タスクにおいて限界があるので、その限界をどのように解消するかについて議論を続けたい。さらに、多様な訓練データに対して可視化を試行することで、本手法の汎用性を検証し、さらなる改善や拡張に努めたい。 「判別分析のための訓練データクレンジング体験のオンライン教材」に関しては、まだ1種類のデータでしか実証実験をしていないので、他にもデータを用意して、判別分析に対して参加者がどのような理解をできるかについて観察したい。また本件は高校生向けのデータサイエンス実習のプロジェクトから始まった課題であるが、高校生以外のユーザにもどの程度有効であるかについて検証を進めたい。
|
Causes of Carryover |
コロナ禍の影響でユーザ評価実験が十分にできなかったため、ノートPCおよび消耗品の購入を控える、謝金の計上が減る、などの影響が出た。またコロナ禍の影響でほとんどの出張が中止になり、また学会発表もオンラインとなったため、次年度以降に出張を増やす予定である。
|
Research Products
(7 results)