• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

ソフトウェアバグ予測を題材とする機械学習システムの評価技術の開発

Research Project

Project/Area Number 20K11749
Research InstitutionOkayama University

Principal Investigator

門田 暁人  岡山大学, 自然科学研究科, 教授 (80311786)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywordsデータ品質評価 / ソフトウェアバグ予測 / 機械学習 / 交差検証 / データ生成
Outline of Annual Research Achievements

学習データに含まれる矛盾の定量化方法について検討し,実験的な評価を行った.定量化にあたっては,ソフトウェアバグ予測に用いられる多数の説明変数を含むデータセットを対象とした.まず,多数のデータセットについて,交差検証とバージョン間予測を行い,評価の元となる基礎データを収集した.予測精度の評価尺度として,Precision,Recall,F1値,AUC of ROC,g-mean, balanceなどを採用した.F1値はデータセットのバグ含有率と大きな相関があるなどが分かった.
矛盾を定量化するにあたっては,前処理として,データセットに対しオーバー/アンダーサンプリングを行い,バグの有無の偏りを解消した上で,変数の正規化を行った.次に,データセットに含まれる全ての個体の組について,正規化と距離算出を行い,距離の近い組のグループ,および距離の遠い組のグループを同定した.そして,各グループに含まれる各組のバグの有無に基づいて矛盾の定量化を行った.様々な正規化手法,距離尺度,矛盾の定量化式について検討した結果,定量化は可能であるものの,さらなる改良の余地があることが分かった.また,バグ予測においては,バージョン間でconcept driftが生じている場合があり,評価において考慮する必要があることが分かった.
また,機械学習システムの評価に用いるデータセット生成方法についても検討を行った.変数間の相関を再現するのみならず,回帰式を再現するための複数の方法について検討し,実験的な評価を行った.その結果,ある程度の精度での再現が実現できたものの,さらなる精度向上の余地があることが分かった.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

予定では2020年と2021年度に基盤技術を開発することとなっている.2020年度中に基本となる技術の検討を行い,技術開発を行った一方で,さらなる改良点についても明らかになった.2021年度は改良が必要な点についてさらに検討を進めていく予定であり,おおむね順調に進展しているといえる.

Strategy for Future Research Activity

データセットに含まれる矛盾の定量化方法,および,データセット生成方法のそれぞれについて,明らかとなった改良点を中心に検討を進めていく予定である.

  • Research Products

    (3 results)

All 2021 2020

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] A Novel Approach to Address External Validity Issues in Fault Prediction Using Bandit Algorithms2021

    • Author(s)
      Teruki Hayakawa, Masateru Tsunoda, Koji Toda, Keitaro Nakasai, Amjed Tahir, Kwabena Ebo Bennin, Akito Monden, and Kenichi Matsumoto
    • Journal Title

      IEICE Transactions on Information and Systems

      Volume: E104-D Pages: 327-331

    • Peer Reviewed
  • [Presentation] データ断片からのソフトウェア開発データの復元の試み2020

    • Author(s)
      西脇 将樹, 門田 暁人
    • Organizer
      第27回ソフトウェア工学の基礎ワークショップ
  • [Presentation] ソフトウェア開発工数予測におけるデータスムージングの実験的評価2020

    • Author(s)
      伊永 健人, 門田 暁人
    • Organizer
      第27回ソフトウェア工学の基礎ワークショップ

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi