2017 Fiscal Year Research-status Report
ソフトウェア開発に関する機密データからの研究用データの生成
Project/Area Number |
17K00102
|
Research Institution | Okayama University |
Principal Investigator |
門田 暁人 岡山大学, 自然科学研究科, 教授 (80311786)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 実証的ソフトウェア工学 / データ機密保護 / データマイニング |
Outline of Annual Research Achievements |
本研究の目的は,与えられたソフトウェア開発データに対し,特徴量の類似する研究用データを人工的に生成する方法を確立することである.現実のソフトウェア開発データを分析した結果,多くの変数値は対数正規分布に近い分布となっているが,歪みを含んでいることが明らかとなった.そこで,ボックス=ミュラー法により正規分布を生成し,対数変換を行うことで対数正規分布に従うデータを生成することとした.さらに,データの特徴量として,尖度と歪度を計測することとし,生成されたデータに対して尖度と歪度の変換を施すことで,現実のデータにより近づける方法を提案した.現実のソフトウェア開発データに対してsinh-arcsinh transformationを用いた結果,与えられた尖度と歪度に一致するデータの生成が可能なことを確認し,線形回帰モデルを用いた評価を行った.また,変数間の関係の再現方法として,3変数以上の組み合わせを扱う方法を提案した.具体的には,相関の大きい2変数の組み合わせについて,一方を他方で除した導出尺度を設け,導出尺度を含むすべての2変数間の関係を再現することとした.さらに,ソフトウェア開発データを研究により適したものとするために,人工的に個体を追加するオーバーサンプリング法についても検討した.多数のソフトウェア開発データを対象として複数のオーバーサンプリング法を実感的に比較し,その効果を明らかにした.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度の研究実施計画では,(1)多様なデータの分布・尺度を想定したデータ生成方法の確立,(2)変数間の関係の再現方法の確立,(3)多数のデータセット,データ分析方法を用いた評価,を予定していた.(1)については,ボックス=ミュラー法,対数変換,および,尖度と歪度の変換を用いる方法を提案した.(2)については,導出尺度を用いる方法を提案した.(3)についても評価を進めている. 以上のことから,研究実施計画に従っておおむね順調に進展していると考える.
|
Strategy for Future Research Activity |
平成30年度以降は,歪度と尖度を利用したデータ生成方法について,さらなる評価を進めるとともに,外れ値・欠損値の再現方法の確立を目指す.また,線形回帰モデル等の統計モデルによる評価に加えて,外れ値除去方法やアソシエーションルールマイニングを用いた評価を行う.さらに,データ増減による効果の評価を行う.
|
Research Products
(4 results)