2021 Fiscal Year Research-status Report
ソフトウェアバグ予測を題材とする機械学習システムの評価技術の開発
Project/Area Number |
20K11749
|
Research Institution | Okayama University |
Principal Investigator |
門田 暁人 岡山大学, 自然科学学域, 教授 (80311786)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | データ品質 / ソフトウェアメトリクス / データ矛盾 / データ生成 / 機械学習 |
Outline of Annual Research Achievements |
学習データに含まれる矛盾の尺度Similar Case Inconsistency Level (SCIL)の定義を与えた.SCILは,データセット中に1つの目的変数が予め指定されることが前提となっており,「与えられた目的変数についての分析や予測を行う」という目的に対し,データセットの品質を評価するための尺度である.SCILの定義にあたって,まず,2つの個体の説明変数の類似度の尺度であるnormalized rank of relative similarity (NRRS)を定義した.NRRSの定義に基づいて,矛盾する個体のペアの定義を与え,全ての個体のペアの数に対する矛盾するペアの割合としてSCILを定義した. 6つのソフトウェア開発プロジェクトから得られた54件のデータセットを用いて,2種類の目的変数に対するSCILの評価実験を行った.評価実験では,目的変数を予測するモデルとして,線形回帰,決定木,ランダムフォレストを採用し,モデル構築の前処理として対数変換を行った. 実験の結果,SCILを算出する際に用いる距離尺度としてユークリッド距離を採用した場合に,SCILの値と予測モデルの精度が強い相関を示した.このことから,データセットを用いて予測モデルを構築する前に,SCILによりデータセットの品質を評価することの有効性が示されたと考えている.. また,機械学習システムの評価に用いる試験用データセットを人工的に生成する方法についても検討を進めた.変数間の相関,回帰式の再現に加えて,データの歪度を再現することで,より実際のデータに近い人工データを生成できることを確認した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「学習データに含まれる矛盾の度合いによって,学習データの品質評価を可能とする」という研究目的について,矛盾の尺度であるSCILを定義し,一定の評価結果を得ることができた. また,「機械学習システムのための試験用データ生成」という研究目的についても,データの歪度を考慮した生成法を開発した. 以上より,おおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
データセットに含まれる矛盾の定量化方法については,従来手法との比較やデータ前処理方法の影響の分析を進めていく予定である. データセット生成方法については,生成されたデータの評価を進めていく予定である.
|