研究課題/領域番号 |
20K11749
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60050:ソフトウェア関連
|
研究機関 | 岡山大学 |
研究代表者 |
門田 暁人 岡山大学, 環境生命自然科学学域, 教授 (80311786)
|
研究期間 (年度) |
2020-04-01 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | ソフトウェア開発データ / ソフトウェアバグ予測 / ソフトウェアメトリクス / 機械学習 / 評価尺度 / 生成系AI / AIチャットボット / ChatGPT / データ品質 / データ矛盾 / データ生成 / データ品質評価 / 交差検証 / 機械学習システム |
研究開始時の研究の概要 |
機械学習システムの評価においては,機械学習の元となる(1)学習データ自体の品質の評価,および,(2)多様な入力に対するシステム出力の性能評価が重要となる.(1)については,本研究では,従来注目されてこなかった,学習データに含まれる「矛盾」に着目して学習データを評価する方法の開発を目指す. (2)については,従来,機械学習システムの評価のためによく用いられている「交差検証」の拡張として,MAHAKILオーバーサンプリング法と機密データ模倣技術を応用する方法の開発を目指す.
|
研究成果の概要 |
機械学習システムの評価においては,(1)学習データの品質の評価,および,(2)システム出力の性能評価が重要となる.(1)については,データ矛盾性の尺度Similar Case Inconsistency Level (SCIL)を定義した.評価実験によって,矛盾の少ないデータセットほど,得られる機械学習モデルの予測性能が高い傾向にあることを示した.(2)については,2クラス分類問題における性能評価指標の期待値を,データセットのneg/pos ratioに基づいて定義した.適用実験によって,従来の評価指標では予測性能を正しく評価できないケースがあることが分かり,提案尺度の有用性が示された
|
研究成果の学術的意義や社会的意義 |
本研究の成果によって,ソフトウェア開発データを対象とした機械学習システムにおいて,学習データを事前に評価すること,および,性能評価をより適切に行うことが可能となり,ソフトウェア工学分野のさらなる発展に寄与できると期待される.また,提案方法は,機械学習を利用する様々な分野への応用が期待される.
|