研究課題
学習データに含まれる矛盾の尺度Similar Case Inconsistency Level (SCIL)の定義を与えた.SCILは,データセット中に1つの目的変数が予め指定されることが前提となっており,「与えられた目的変数についての分析や予測を行う」という目的に対し,データセットの品質を評価するための尺度である.SCILの定義にあたって,まず,2つの個体の説明変数の類似度の尺度であるnormalized rank of relative similarity (NRRS)を定義した.NRRSの定義に基づいて,矛盾する個体のペアの定義を与え,全ての個体のペアの数に対する矛盾するペアの割合としてSCILを定義した.6つのソフトウェア開発プロジェクトから得られた54件のデータセットを用いて,2種類の目的変数に対するSCILの評価実験を行った.評価実験では,目的変数を予測するモデルとして,線形回帰,決定木,ランダムフォレストを採用し,モデル構築の前処理として対数変換を行った.実験の結果,SCILを算出する際に用いる距離尺度としてユークリッド距離を採用した場合に,SCILの値と予測モデルの精度が強い相関を示した.このことから,データセットを用いて予測モデルを構築する前に,SCILによりデータセットの品質を評価することの有効性が示されたと考えている..また,機械学習システムの評価に用いる試験用データセットを人工的に生成する方法についても検討を進めた.変数間の相関,回帰式の再現に加えて,データの歪度を再現することで,より実際のデータに近い人工データを生成できることを確認した.
2: おおむね順調に進展している
「学習データに含まれる矛盾の度合いによって,学習データの品質評価を可能とする」という研究目的について,矛盾の尺度であるSCILを定義し,一定の評価結果を得ることができた.また,「機械学習システムのための試験用データ生成」という研究目的についても,データの歪度を考慮した生成法を開発した.以上より,おおむね順調に進展しているといえる.
データセットに含まれる矛盾の定量化方法については,従来手法との比較やデータ前処理方法の影響の分析を進めていく予定である.データセット生成方法については,生成されたデータの評価を進めていく予定である.
すべて 2022 2021
すべて 雑誌論文 (2件) (うち査読あり 1件) 学会発表 (1件)
コンピュータソフトウェア
巻: 38 ページ: 4_46-4_52
Proc. 22nd IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing
巻: 1 ページ: 1-6