2023 Fiscal Year Research-status Report
ソフトウェアバグ予測の精度改善に向けた堅牢なデータ前処理技術の開発
Project/Area Number |
23K16863
|
Research Institution | Kyoto Institute of Technology |
Principal Investigator |
西浦 生成 京都工芸繊維大学, 情報工学・人間科学系, 助教 (20944002)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Keywords | ソフトウェア工学 / バグ予測 / 機械学習 / データ前処理 |
Outline of Annual Research Achievements |
本応募課題では、バグを含むソフトウェアモジュールの所在を自動的に予測することでソフトウェア品質保証にかかる人的資源の効率化を目指す「バージョン間Fault-proneモジュール予測」に対し、学習データセットの特徴に左右されないよう、汎用データセットを用いた機械学習による外れ値除去による堅牢な予測精度向上手法を開発し、その効果と性質を明らかにすることを目的としている。さらに、既存の外れ値除去手法や、外れ値除去以外の予測精度向上技術と新手法を組み合わせたFault-proneモジュール予測の前処理プロセスを新たに開発・検証し、予測精度を最大限にまで高め得る、当分野のデファクトスタンダードとなるような最先端技術の成立を目指している。 本応募課題の前半期間(2023-2025)では、外れ値除去手法の開発と評価に焦点を当てている。主な作業として、複数のプロトタイプの開発と評価実験を繰り返すことで、(1)手法に利用する機械学習アルゴリズムの検討、(2)学習に利用する汎用データセットの収集と整備、(3)評価用データセットの収集と整備、(4)ハイパーパラメータの最適化、を行う。 当該年度に実施した研究では、これらのうち複数の目標を達成するための実験を試みた。実験の成果として、(1)について、ロジスティック回帰やランダムフォレスト、Naive Bayesやそのアンサンブル学習などを提案手法が採用する機械学習モデルとして評価することで、ランダムフォレストの優位性を発見した。 (2)および(3)については、Zenodoから取得した開発履歴データセットを新たに実験対象として適用し、データセットごとに異なる特性を発見した。(4)については、ハイパーパラメータの設定を変えてスムーズに評価実験を繰り返すことのできる環境構築に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
より発展的な手法提案および評価分析を当初の研究計画通りに行うことができたものの、実験結果をより明晰にするための実験内容の変更が重なり、当該年度内に論文の完成まで至れなかったため。また、当該年度以降の実験計画についてその詳細を明確化できていないため。
|
Strategy for Future Research Activity |
まず、当該年度中に行った実験の結果をまとめ、適切な考察を施して論文を完成させ、インパクトファクターの高い海外論文誌に投稿する。次に、新規知見の獲得に向け、より提案手法の堅牢性を増加させるであろう、提案手法で用いる第三者データの拡充、および、取捨選択について、それらの操作を適切に行うことができる一般的な方法を構築する。また、そうした方法を実際に実践し、その効果を分析評価する。また、欠陥モジュール予測における学習データ前処理の堅牢性をより適切に評価できる評価指標を考案できれば喜ばしい。
|