• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

ソフトウェアバグ予測を題材とする機械学習システムの評価技術の開発

研究課題

研究課題/領域番号 20K11749
研究機関岡山大学

研究代表者

門田 暁人  岡山大学, 自然科学研究科, 教授 (80311786)

研究期間 (年度) 2020-04-01 – 2024-03-31
キーワードデータ品質評価 / ソフトウェアバグ予測 / 機械学習 / 交差検証 / データ生成
研究実績の概要

学習データに含まれる矛盾の定量化方法について検討し,実験的な評価を行った.定量化にあたっては,ソフトウェアバグ予測に用いられる多数の説明変数を含むデータセットを対象とした.まず,多数のデータセットについて,交差検証とバージョン間予測を行い,評価の元となる基礎データを収集した.予測精度の評価尺度として,Precision,Recall,F1値,AUC of ROC,g-mean, balanceなどを採用した.F1値はデータセットのバグ含有率と大きな相関があるなどが分かった.
矛盾を定量化するにあたっては,前処理として,データセットに対しオーバー/アンダーサンプリングを行い,バグの有無の偏りを解消した上で,変数の正規化を行った.次に,データセットに含まれる全ての個体の組について,正規化と距離算出を行い,距離の近い組のグループ,および距離の遠い組のグループを同定した.そして,各グループに含まれる各組のバグの有無に基づいて矛盾の定量化を行った.様々な正規化手法,距離尺度,矛盾の定量化式について検討した結果,定量化は可能であるものの,さらなる改良の余地があることが分かった.また,バグ予測においては,バージョン間でconcept driftが生じている場合があり,評価において考慮する必要があることが分かった.
また,機械学習システムの評価に用いるデータセット生成方法についても検討を行った.変数間の相関を再現するのみならず,回帰式を再現するための複数の方法について検討し,実験的な評価を行った.その結果,ある程度の精度での再現が実現できたものの,さらなる精度向上の余地があることが分かった.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

予定では2020年と2021年度に基盤技術を開発することとなっている.2020年度中に基本となる技術の検討を行い,技術開発を行った一方で,さらなる改良点についても明らかになった.2021年度は改良が必要な点についてさらに検討を進めていく予定であり,おおむね順調に進展しているといえる.

今後の研究の推進方策

データセットに含まれる矛盾の定量化方法,および,データセット生成方法のそれぞれについて,明らかとなった改良点を中心に検討を進めていく予定である.

  • 研究成果

    (3件)

すべて 2021 2020

すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (2件)

  • [雑誌論文] A Novel Approach to Address External Validity Issues in Fault Prediction Using Bandit Algorithms2021

    • 著者名/発表者名
      Teruki Hayakawa, Masateru Tsunoda, Koji Toda, Keitaro Nakasai, Amjed Tahir, Kwabena Ebo Bennin, Akito Monden, and Kenichi Matsumoto
    • 雑誌名

      IEICE Transactions on Information and Systems

      巻: E104-D ページ: 327-331

    • 査読あり
  • [学会発表] データ断片からのソフトウェア開発データの復元の試み2020

    • 著者名/発表者名
      西脇 将樹, 門田 暁人
    • 学会等名
      第27回ソフトウェア工学の基礎ワークショップ
  • [学会発表] ソフトウェア開発工数予測におけるデータスムージングの実験的評価2020

    • 著者名/発表者名
      伊永 健人, 門田 暁人
    • 学会等名
      第27回ソフトウェア工学の基礎ワークショップ

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi