2017 Fiscal Year Research-status Report
Deep Learning for Imbalanced Data Stream
Project/Area Number |
17K00310
|
Research Institution | Future University-Hakodate |
Principal Investigator |
新美 礼彦 公立はこだて未来大学, システム情報科学部, 准教授 (80347179)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | データマイニング / 深層学習 / 不均一分布データ / 機械学習 |
Outline of Annual Research Achievements |
本研究は、平成29年度から3年間の計画であり、初年度は、主として、(1) 不均一分布を持ったデータに対する、分散処理可能な深層学習のためのアルゴリズムの構築を行った。これまで提案者が開発してきたアルゴリズムでの知見を元に、不均一分布を持ったデータに対する分散処理可能な深層学習(Deep Learning)のためのアルゴリズムを構築した。深層学習(Deep Learning)は訓練データに過学習してしまう問題がある。これは特に不均一分布を持つデータを学習する際は問題である。本研究では、不均一分布を持つデータに対しても過学習を起こさないアルゴリズムを検討する。実験データとしては、不均一データ分布の特徴を持つクレジットカードトランザクションデータを利用する。まず、クレジットカードトランザクションデータの特徴を元に人工データを作成し、アルゴリズムの検討と構築を行った。次に、実データである実際のクレジットカードトランザクションデータを用いて、性能評価を行った。初年度の研究成果をまとめて,3つの国際会議(6th International Conference on Advanced Information Technologies and Applications (ICAITA 2017), The 4th International Conference on Fuzzy Systems and Data Mining (FSDM 2018), World Congress on Internet Security (WorldCIS-2017))にて発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画初年度に予定していた、不均一分布を持ったデータに対する深層学習のためのアルゴリズムの構築が行え,人工データとクレジットカードトランザクションデータを用いた性能評価実験が行えた.研究結果に関しては,国際会議にて発表できた.
|
Strategy for Future Research Activity |
今後は、ストリーム性を考慮したマイニングアルゴリズムの開発を行う.次年度は、ストリーム性を考慮し、深層学習(Deep Learning)のアルゴリズムを拡張する。並列分散データマイニングでは、システムを構築する際に多数の計算ノードを用意する必要があり、設置場所およびメンテナンスなどの観点からAmazon Web Services(AWS)を利用する。研究の進捗に応じて10コア程度から、順次規模を大きくしていく。ストリームデータ分析のための深層学習(Deep Learning)を大規模並列分散環境に対応したアルゴリズムを構築すると共に、ストリーム性をを考慮したマイニングアルゴリズムを実際の大規模データ環境において期待した性能が出るか評価を行う。対象とする課題は次の2つである。1) ストリームデータの分析のための深層学習(Deep Learning)のApache Spark対応アルゴリズム、2) これまでに開発した1)のアルゴリズムを大規模データへの適用 1)では、提案者の開発した深層学習(Deep Learning)アルゴリズムを大規模並列分散環境に適用しアルゴリズムに改良し、ストリームデータマイニングに向けたシステムの拡張を行う。提案するシステムを、Apache SparkやTensor Flowを用いて並列分散処理可能なアルゴリズムに拡張する。2)では、これまでに開発した並列分散アルゴリズムを実際の大規模並列分散環境上に構築し、大規模実データを用いて、性能評価を行う。性能評価では、高速化、精度、データの増加に対するスケール、の観点から構築アルゴリズムの評価を行う。これにより、動的な構造の変化や時間的変化、外れ値の影響を抑えた上で、大規模データセットを用いた際の分析効率の改善を目指す。
|
Causes of Carryover |
AWS利用料が実験時間に比例するため,使用計画での金額と実際の支出額に差が生じた.生じた差額は次年度以降のAWS利用料に使用する予定である。
|
Research Products
(7 results)