研究課題/領域番号 |
17K00102
|
研究機関 | 岡山大学 |
研究代表者 |
門田 暁人 岡山大学, 自然科学研究科, 教授 (80311786)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 実証的ソフトウェア工学 / データ機密保護 / データマイニング |
研究実績の概要 |
本研究の目的は,与えられたソフトウェア開発データに対し,特徴量の類似する研究用データを人工的に生成する方法を確立することである.現実のソフトウェア開発データを分析した結果,多くの変数値は対数正規分布に近い分布となっているが,歪みを含んでいることが明らかとなった.そこで,ボックス=ミュラー法により正規分布を生成し,対数変換を行うことで対数正規分布に従うデータを生成することとした.さらに,データの特徴量として,尖度と歪度を計測することとし,生成されたデータに対して尖度と歪度の変換を施すことで,現実のデータにより近づける方法を提案した.現実のソフトウェア開発データに対してsinh-arcsinh transformationを用いた結果,与えられた尖度と歪度に一致するデータの生成が可能なことを確認し,線形回帰モデルを用いた評価を行った.また,変数間の関係の再現方法として,3変数以上の組み合わせを扱う方法を提案した.具体的には,相関の大きい2変数の組み合わせについて,一方を他方で除した導出尺度を設け,導出尺度を含むすべての2変数間の関係を再現することとした.さらに,ソフトウェア開発データを研究により適したものとするために,人工的に個体を追加するオーバーサンプリング法についても検討した.多数のソフトウェア開発データを対象として複数のオーバーサンプリング法を実感的に比較し,その効果を明らかにした.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成29年度の研究実施計画では,(1)多様なデータの分布・尺度を想定したデータ生成方法の確立,(2)変数間の関係の再現方法の確立,(3)多数のデータセット,データ分析方法を用いた評価,を予定していた.(1)については,ボックス=ミュラー法,対数変換,および,尖度と歪度の変換を用いる方法を提案した.(2)については,導出尺度を用いる方法を提案した.(3)についても評価を進めている. 以上のことから,研究実施計画に従っておおむね順調に進展していると考える.
|
今後の研究の推進方策 |
平成30年度以降は,歪度と尖度を利用したデータ生成方法について,さらなる評価を進めるとともに,外れ値・欠損値の再現方法の確立を目指す.また,線形回帰モデル等の統計モデルによる評価に加えて,外れ値除去方法やアソシエーションルールマイニングを用いた評価を行う.さらに,データ増減による効果の評価を行う.
|