2018 Fiscal Year Research-status Report
Deep Learning for Imbalanced Data Stream
Project/Area Number |
17K00310
|
Research Institution | Future University-Hakodate |
Principal Investigator |
新美 礼彦 公立はこだて未来大学, システム情報科学部, 准教授 (80347179)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | データマイニング / 深層学習 / 不均一データ / 機械学習 |
Outline of Annual Research Achievements |
本研究は平成29年度から3年の計画であり,2年目は,主として(2) ストリーム性を考慮したマイニングアルゴリズムの開発を行った。これまで提案者が開発してきたアルゴリズムでの知見を元に、前年度に構築した,不均一分布を持ったデータに対する分散処理可能な深層学習(Deep Learning)のためのアルゴリズムをストリームデータに対応させるアルゴリズムの検討を行った。不均一分布を持ったデータをサンプリングとデータ生成により、精度を向上させる手法を提案し,ベンチマーク用データセットに適用し、提案手法の有効性を検証した。ストリームデータとしてネットワークパケットを元にした不正侵入検知を取り上げ,検知手法を検討した。また、自然言語処理を対象にしたトピックモデルによる話題推定手法の多義語と新語への対応、ソースコード特有の近傍単語の影響を考慮したword2vecを用いた類似コード片推薦手法を提案した。 2年目の研究成果をまとめて,1つの雑誌論文(JITST)と5つの国際会議(IEA-AIE 2018, FSDM2018, SCIS&ISIS with ISWS2018, WorldCIS-2018, IMCIC 2019)にて発表を行った。国内研究会でも発表を行った. 本研究を受けて,日本知能情報ファジィ学会の論文誌の特集を企画した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
計画2年目に予定していた、ストリーム性を考慮したマイニングアルゴリズムに取りかかることができ,初年度に開発した手法の検証実験とストリームデータを用いた検証実験をを行うことができた.研究結果に関しては,国際会議にて発表できた. また、本研究を受けて,日本知能情報ファジィ学会の論文誌の特集を企画した.
|
Strategy for Future Research Activity |
今後は,提案した不均一分を持ったデータに対する深層学習アルゴリズム,ストリーム性を考慮したデータマイニングアルゴリズムを実際の大規模並列分散環境上に構築し、大規模実データを用いて、性能評価を行う。性能評価では、高速化、精度、データの増加に対するスケール、の観点から構築アルゴリズムの評価を行う。これにより、動的な構造の変化や時間的変化、外れ値の影響を抑えた上で、大規模データセットを用いた際の分析効率の改善を目指す。 前年までに構築したアルゴリズムに対し、パラメータチューニングの自動化を組み込む。パラメータチューニングは、多くのパラメータセットを並列分散処理することにより、最適なパラメータセットを探す。前年までの研究成果により、アルゴリズムが高速化されているため、実時間でのパラメータチューニングが可能となる。また、アルゴリズムの一般化を考えることにより、メタ学習モデルを構築する。メタ学習モデルを組み込んだシステムを構築する事により、大規模データに対し、知識発見システム構築のための試行錯誤を高速に行うことが可能となる。 これにより、大規模不均一データストリームに対応した新しい手法を提案する。
|
Causes of Carryover |
AWS利用料が実験時間に比例するため,使用計画での金額と実際の支出額に差が生じた.生じた差額は次年度以降のAWS利用料に使用する予定である。
|
Research Products
(8 results)