• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

機械学習の訓練データ検証のための対話的可視化手法の研究

研究課題

研究課題/領域番号 20K11917
研究機関お茶の水女子大学

研究代表者

伊藤 貴之  お茶の水女子大学, 基幹研究院, 教授 (80401595)

研究期間 (年度) 2020-04-01 – 2023-03-31
キーワード訓練データ / 可視化
研究実績の概要

2020年度の本研究では主に、機械学習の訓練データ作成のためのソフトウェア開発に注力した。一方でコロナ禍の影響により、教職員も学生も在宅中心の研究を強いられたことから、被験者を交えたユーザ実験は2021年度以降に繰り越すことにした。以下、本研究で開発した3つのソフトウェアについて説明する。
1つ目は「SD法による画像印象のタグ付けを支援する可視化」である。画像の印象を推測する機械学習の構築において、各画像の印象をタグ付けする作業が生じる。ここでタグ付け作業者が有する印象には個人差があることから、あらかじめ回収した多人数による印象回答値から各画像の印象を推定する決定木を構築し、それを可視化することで画像印象の半自動的なタグ付け工程を確認するシステムを開発した。
2つ目は「訓練データ比較のための可視化」である。機械学習の工程で複数の訓練データを扱う機会がある。例えば例えば転移学習において、ソースデータとターゲットデータの質の違いが訓練後のモデルの精度を下げることが知られている。このような問題を解決するために、複数の訓練データの特徴量分布の違い、また同一ラベルを付与された個体間の分布の差異などを比較可視化するツールを開発した。
3つ目は高校生向けオンラインデータサイエンス教材開発の一環で開発した「判別分析のための訓練データクレンジング体験のオンライン教材」である。このオンライン教材では訓練データの特徴量分布をブラウザ上で可視化し、その画面上でデータ中の例外的な個体を削除することで判別分析の精度が向上するのを体験させるものである。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本課題では「複数の作業者による注釈内容を可視化する」「訓練データ中の注釈と判別結果の分布」の2つの課題について可視化を進めることになっていた。本研究で2020年度に開発した3種類のソフトウェアのうち「SD法による画像印象のタグ付けを支援する可視化」「判別分析のための訓練データクレンジング体験のオンライン教材」の2事例が前述の2つの課題に対するソフトウェアである。順調に開発が進んでいるという意味で本研究は順調に進行していると言える。さらに「訓練データ比較のための可視化」という別の課題にも着手していることから、本課題では当初の想定以上に幅広いソフトウェア開発を進めていることになる。
一方で、コロナ禍の影響で学生の大半が在宅での学習・研究を強いられるという想定外の状況が生じたこともあり、学生被験者を交えたユーザ実験がほとんど着手できていない。「判別分析のための訓練データクレンジング体験のオンライン教材」については附属高等学校にてユーザ実験を実施したものの、高校の規則によりログデータを使うことができなかったため、ユーザ実験もやり直しが必要となった。そのため2021年度はソフトウェアの開発のみならずユーザ実験にも注力する必要がある。

今後の研究の推進方策

本課題では昨年度までに開発した3種類のソフトウェアについて、適用事例やユーザ評価実験を進めることで、その有効性を検証するとともに、ソフトウェアの改善や拡張も試みる。
「SD法による画像印象のタグ付けを支援する可視化」については、現在用いているファッション画像の規模(枚数やタグの種類)を拡大してシステムのスケーラビリティを検証したい。さらに大規模なユーザ評価実験を実施することで、訓練データ画像へのタグ付けに関するユーザの行動の違いを観察し、システムのさらなる改善や拡張のための参考にしたい。
「訓練データ比較のための可視化」に関しては、まだ開発に際して完成していない点があるので、その完成を目指したい。また、本手法は2,3種類の訓練データ、10種類程度のラベルの比較が可能であるが、それ以上の訓練データ数やラベル数を有する比較タスクにおいて限界があるので、その限界をどのように解消するかについて議論を続けたい。さらに、多様な訓練データに対して可視化を試行することで、本手法の汎用性を検証し、さらなる改善や拡張に努めたい。
「判別分析のための訓練データクレンジング体験のオンライン教材」に関しては、まだ1種類のデータでしか実証実験をしていないので、他にもデータを用意して、判別分析に対して参加者がどのような理解をできるかについて観察したい。また本件は高校生向けのデータサイエンス実習のプロジェクトから始まった課題であるが、高校生以外のユーザにもどの程度有効であるかについて検証を進めたい。

次年度使用額が生じた理由

コロナ禍の影響でユーザ評価実験が十分にできなかったため、ノートPCおよび消耗品の購入を控える、謝金の計上が減る、などの影響が出た。またコロナ禍の影響でほとんどの出張が中止になり、また学会発表もオンラインとなったため、次年度以降に出張を増やす予定である。

  • 研究成果

    (7件)

すべて 2021 2020

すべて 学会発表 (7件) (うち国際学会 2件)

  • [学会発表] SD法による画像印象のタグ付けを支援する可視化2021

    • 著者名/発表者名
      飯島緋理, 伊藤貴之
    • 学会等名
      第13回データ工学と情報マネジメントに関するフォーラム(DEIM)
  • [学会発表] 高校生向けデータサイエンス教材の提案と操作ログの解析2021

    • 著者名/発表者名
      村上綾菜, 伊藤貴之
    • 学会等名
      第13回データ工学と情報マネジメントに関するフォーラム(DEIM)
  • [学会発表] 訓練データ比較のための可視化の一手法2021

    • 著者名/発表者名
      高坂夏怜, 伊藤貴之
    • 学会等名
      第13回データ工学と情報マネジメントに関するフォーラム(DEIM)
  • [学会発表] 高校生向けデータサイエンス教材の開発2021

    • 著者名/発表者名
      村上綾菜, 伊藤貴之
    • 学会等名
      情報処理学会インタラクション2021
  • [学会発表] SD法による画像印象のタグ付けを支援する可視化2021

    • 著者名/発表者名
      飯島緋理, 伊藤貴之
    • 学会等名
      情報処理学会第83回全国大会
  • [学会発表] Visualization of semantic differential studies with a large number of images, participants and attributes2020

    • 著者名/発表者名
      A. Iijima, T. Itoh, N. Grossmann, H.-Y. Wu
    • 学会等名
      24th International Conference on Information Visualisation (IV2020)
    • 国際学会
  • [学会発表] Visualization of Individual Variation of Multiple Annotators Working on Training Datasets for Machine Learning2020

    • 著者名/発表者名
      Takayuki Itoh, Ayana Murakami
    • 学会等名
      NICOGRAPH International 2020
    • 国際学会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi