2020 Fiscal Year Research-status Report
ソフトウェアバグ予測を題材とする機械学習システムの評価技術の開発
Project/Area Number |
20K11749
|
Research Institution | Okayama University |
Principal Investigator |
門田 暁人 岡山大学, 自然科学研究科, 教授 (80311786)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | データ品質評価 / ソフトウェアバグ予測 / 機械学習 / 交差検証 / データ生成 |
Outline of Annual Research Achievements |
学習データに含まれる矛盾の定量化方法について検討し,実験的な評価を行った.定量化にあたっては,ソフトウェアバグ予測に用いられる多数の説明変数を含むデータセットを対象とした.まず,多数のデータセットについて,交差検証とバージョン間予測を行い,評価の元となる基礎データを収集した.予測精度の評価尺度として,Precision,Recall,F1値,AUC of ROC,g-mean, balanceなどを採用した.F1値はデータセットのバグ含有率と大きな相関があるなどが分かった. 矛盾を定量化するにあたっては,前処理として,データセットに対しオーバー/アンダーサンプリングを行い,バグの有無の偏りを解消した上で,変数の正規化を行った.次に,データセットに含まれる全ての個体の組について,正規化と距離算出を行い,距離の近い組のグループ,および距離の遠い組のグループを同定した.そして,各グループに含まれる各組のバグの有無に基づいて矛盾の定量化を行った.様々な正規化手法,距離尺度,矛盾の定量化式について検討した結果,定量化は可能であるものの,さらなる改良の余地があることが分かった.また,バグ予測においては,バージョン間でconcept driftが生じている場合があり,評価において考慮する必要があることが分かった. また,機械学習システムの評価に用いるデータセット生成方法についても検討を行った.変数間の相関を再現するのみならず,回帰式を再現するための複数の方法について検討し,実験的な評価を行った.その結果,ある程度の精度での再現が実現できたものの,さらなる精度向上の余地があることが分かった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定では2020年と2021年度に基盤技術を開発することとなっている.2020年度中に基本となる技術の検討を行い,技術開発を行った一方で,さらなる改良点についても明らかになった.2021年度は改良が必要な点についてさらに検討を進めていく予定であり,おおむね順調に進展しているといえる.
|
Strategy for Future Research Activity |
データセットに含まれる矛盾の定量化方法,および,データセット生成方法のそれぞれについて,明らかとなった改良点を中心に検討を進めていく予定である.
|