Project/Area Number |
20K11749
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60050:Software-related
|
Research Institution | Okayama University |
Principal Investigator |
Monden Akito 岡山大学, 環境生命自然科学学域, 教授 (80311786)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | ソフトウェア開発データ / ソフトウェアバグ予測 / ソフトウェアメトリクス / 機械学習 / 評価尺度 / 生成系AI / AIチャットボット / ChatGPT / データ品質 / データ矛盾 / データ生成 / データ品質評価 / 交差検証 / 機械学習システム |
Outline of Research at the Start |
機械学習システムの評価においては,機械学習の元となる(1)学習データ自体の品質の評価,および,(2)多様な入力に対するシステム出力の性能評価が重要となる.(1)については,本研究では,従来注目されてこなかった,学習データに含まれる「矛盾」に着目して学習データを評価する方法の開発を目指す. (2)については,従来,機械学習システムの評価のためによく用いられている「交差検証」の拡張として,MAHAKILオーバーサンプリング法と機密データ模倣技術を応用する方法の開発を目指す.
|
Outline of Final Research Achievements |
In the evaluation of machine learning systems, it is important to (1) evaluate the quality of training data and (2) evaluate the performance of system output. For (1), we defined a data inconsistency measure, Similar Case Inconsistency Level (SCIL). Through evaluation experiments, we showed that the less inconsistent the dataset is, the better the prediction performance of the resulting machine learning model tends to be. For (2), we defined the expected values of performance measures for a two-class classification problem based on the neg/pos ratio of the dataset. Application experiments showed that there are cases in which conventional evaluation measures cannot correctly evaluate the prediction performance, indicating the usefulness of the proposed measures.
|
Academic Significance and Societal Importance of the Research Achievements |
本研究の成果によって,ソフトウェア開発データを対象とした機械学習システムにおいて,学習データを事前に評価すること,および,性能評価をより適切に行うことが可能となり,ソフトウェア工学分野のさらなる発展に寄与できると期待される.また,提案方法は,機械学習を利用する様々な分野への応用が期待される.
|