2012 Fiscal Year Annual Research Report
ノイズを含むストリームデータ環境における省メモリかつ高速なオンライン学習
Project/Area Number |
12J09511
|
Research Institution | The University of Tokyo |
Principal Investigator |
大岩 秀和 東京大学, 大学院・情報理工学系研究科, 特別研究員(DC1)
|
Keywords | オンライン学習 / スパース正則化 / ビッグデータ / 特徴選択 / 時系列データ / ストリームデータ / 状態空間モデル / 分類問題 |
Research Abstract |
1.データの性質を動的に織り込むオンライン学習のための新たな正則化手法の提案 申請書における第一の課題は,ストリームデータ環境下での効率的なオンライン学習手法の開発である.大規模データに既存手法を適用する際の問題点として,各特徴量の出現頻度な値のレンジ等の性質が不均一な場合,予測に有用な特徴量でも,出現頻度が低い特徴量や値のレンジが小さい特徴量が優先的に予測モデルから除かれる問題点を例とともに示した.さらに,この効果で予測モデルの精度が劣化する副作用があることを指摘した.この副作用を緩和するため,予測モデルへの悪影響を動的に補正する新たな正則化手法を提案した.この改良により,特徴の出現頻度情報が既知でなくても,予測に重要な特徴量を副作用なく予測モデルに組み込む事が可能になる.理論解析では,計算速度・収束性能面から既存手法と同等の速度で動作可能であるという保証を与え,大規模データからの実用的な学習が可能であることを示した.ノイズを含む実データを用いた評価実験では,動的な特徴選択への有効性を示し,その結果として既存手法と比べさらに省メモリで高精度な予測モデルが構築出来ていることを確認した. 2.ノイズを含む時系列データからの重要な潜在変数の自動選択アルゴリズムの提案 ソーシャルメディア上や経済現象中には,ノイズを含むストリーム(時系列)データが大量に生成されている.状態空間モデルはノイズを含む時系列データから各時点での潜在的な状態の逐次推定を行う有用な手法である.ノイズを含むデータの効率的な解析のため,提案手法では,過去・現在・未来の時系列を復元および予測を行う上で重要な状態変数を,自動的に選択するためのアルゴリズムを提案した.状態変数の自動選択は,時系列データの解釈性の増大・計算量の削減・ノイズの除去に作用し,ノイズを含む時系列データからの解析を行う上で非常に重要な手法となる.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
初年度の年次計画であるノイズを含むストリームデータ環境のモデル化のサーベイに加え,今年度にはノイズを含む実ストリームデータからの知的処理のための複数の性能の高い予測モデル学習手法の開発に成功した.これらの研究成果はICDM等の査読付き国際会議等にも採択され,質の高い研究成果を継続的に挙げられていると評価できるため.
|
Strategy for Future Research Activity |
はじめに,過去に提案したモデルの理論・実験面での解析をさらに推し進める1ストリームデータ環境はノイズの種類によって複数の性質を持つため,それぞれの性質に応じて収束性や収束速度が変化すると思われる.今後,特徴量ノイズやラベルノイズが含まれるストリームデータ環境のモデル化に従って,各状況下における理論・実験的な評価を行うことを計画している.また,ノイズの原因の一つとして,人間がデータ作成および予測モデルの評価に関与する際に生み出されるノイズには様々な特性がある事が知られているため,そのモデル化に従って,新たなアルゴリズムの開発および実験・理論面での解析を推し進めていく.
|
Research Products
(6 results)