機械学習システムの評価においては,(1)学習データの品質の評価,および,(2)システム出力の性能評価が重要となる.(1)については,データ矛盾性の尺度Similar Case Inconsistency Level (SCIL)を定義した.評価実験によって,矛盾の少ないデータセットほど,得られる機械学習モデルの予測性能が高い傾向にあることを示した.(2)については,2クラス分類問題における性能評価指標の期待値を,データセットのneg/pos ratioに基づいて定義した.適用実験によって,従来の評価指標では予測性能を正しく評価できないケースがあることが分かり,提案尺度の有用性が示された
|