• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

ソフトウェアバグ予測を題材とする機械学習システムの評価技術の開発

Research Project

Project/Area Number 20K11749
Research InstitutionOkayama University

Principal Investigator

門田 暁人  岡山大学, 自然科学学域, 教授 (80311786)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywordsデータ品質 / ソフトウェアメトリクス / データ矛盾 / データ生成 / 機械学習
Outline of Annual Research Achievements

学習データに含まれる矛盾の尺度Similar Case Inconsistency Level (SCIL)の定義を与えた.SCILは,データセット中に1つの目的変数が予め指定されることが前提となっており,「与えられた目的変数についての分析や予測を行う」という目的に対し,データセットの品質を評価するための尺度である.SCILの定義にあたって,まず,2つの個体の説明変数の類似度の尺度であるnormalized rank of relative similarity (NRRS)を定義した.NRRSの定義に基づいて,矛盾する個体のペアの定義を与え,全ての個体のペアの数に対する矛盾するペアの割合としてSCILを定義した.
6つのソフトウェア開発プロジェクトから得られた54件のデータセットを用いて,2種類の目的変数に対するSCILの評価実験を行った.評価実験では,目的変数を予測するモデルとして,線形回帰,決定木,ランダムフォレストを採用し,モデル構築の前処理として対数変換を行った.
実験の結果,SCILを算出する際に用いる距離尺度としてユークリッド距離を採用した場合に,SCILの値と予測モデルの精度が強い相関を示した.このことから,データセットを用いて予測モデルを構築する前に,SCILによりデータセットの品質を評価することの有効性が示されたと考えている..
また,機械学習システムの評価に用いる試験用データセットを人工的に生成する方法についても検討を進めた.変数間の相関,回帰式の再現に加えて,データの歪度を再現することで,より実際のデータに近い人工データを生成できることを確認した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

「学習データに含まれる矛盾の度合いによって,学習データの品質評価を可能とする」という研究目的について,矛盾の尺度であるSCILを定義し,一定の評価結果を得ることができた.
また,「機械学習システムのための試験用データ生成」という研究目的についても,データの歪度を考慮した生成法を開発した.
以上より,おおむね順調に進展しているといえる.

Strategy for Future Research Activity

データセットに含まれる矛盾の定量化方法については,従来手法との比較やデータ前処理方法の影響の分析を進めていく予定である.
データセット生成方法については,生成されたデータの評価を進めていく予定である.

  • Research Products

    (3 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

  • [Journal Article] ソフトウェア開発工数予測におけるauto-sklearnの適用2021

    • Author(s)
      田中 和也, 門田 暁人, Zeynep Yucel
    • Journal Title

      コンピュータソフトウェア

      Volume: 38 Pages: 4_46-4_52

    • Peer Reviewed
  • [Journal Article] Association Metrics Between Two Continuous Variables for Software Project Data2021

    • Author(s)
      Takumi Kanehira, Akito Monden, Zeynep Yucel
    • Journal Title

      Proc. 22nd IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing

      Volume: 1 Pages: 1-6

  • [Presentation] データ断片からのソフトウェア開発データ復元の実験評価2022

    • Author(s)
      西脇将樹, 門田暁人, 笹倉万里子, 西浦生成
    • Organizer
      電子情報通信学会ソフトウェアサイエンス研究会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi