研究概要 |
1.データの性質を動的に織り込むオンライン学習のための新たな正則化手法の提案 申請書における第一の課題は,ストリームデータ環境下での効率的なオンライン学習手法の開発である.大規模データに既存手法を適用する際の問題点として,各特徴量の出現頻度な値のレンジ等の性質が不均一な場合,予測に有用な特徴量でも,出現頻度が低い特徴量や値のレンジが小さい特徴量が優先的に予測モデルから除かれる問題点を例とともに示した.さらに,この効果で予測モデルの精度が劣化する副作用があることを指摘した.この副作用を緩和するため,予測モデルへの悪影響を動的に補正する新たな正則化手法を提案した.この改良により,特徴の出現頻度情報が既知でなくても,予測に重要な特徴量を副作用なく予測モデルに組み込む事が可能になる.理論解析では,計算速度・収束性能面から既存手法と同等の速度で動作可能であるという保証を与え,大規模データからの実用的な学習が可能であることを示した.ノイズを含む実データを用いた評価実験では,動的な特徴選択への有効性を示し,その結果として既存手法と比べさらに省メモリで高精度な予測モデルが構築出来ていることを確認した. 2.ノイズを含む時系列データからの重要な潜在変数の自動選択アルゴリズムの提案 ソーシャルメディア上や経済現象中には,ノイズを含むストリーム(時系列)データが大量に生成されている.状態空間モデルはノイズを含む時系列データから各時点での潜在的な状態の逐次推定を行う有用な手法である.ノイズを含むデータの効率的な解析のため,提案手法では,過去・現在・未来の時系列を復元および予測を行う上で重要な状態変数を,自動的に選択するためのアルゴリズムを提案した.状態変数の自動選択は,時系列データの解釈性の増大・計算量の削減・ノイズの除去に作用し,ノイズを含む時系列データからの解析を行う上で非常に重要な手法となる.
|
今後の研究の推進方策 |
はじめに,過去に提案したモデルの理論・実験面での解析をさらに推し進める1ストリームデータ環境はノイズの種類によって複数の性質を持つため,それぞれの性質に応じて収束性や収束速度が変化すると思われる.今後,特徴量ノイズやラベルノイズが含まれるストリームデータ環境のモデル化に従って,各状況下における理論・実験的な評価を行うことを計画している.また,ノイズの原因の一つとして,人間がデータ作成および予測モデルの評価に関与する際に生み出されるノイズには様々な特性がある事が知られているため,そのモデル化に従って,新たなアルゴリズムの開発および実験・理論面での解析を推し進めていく.
|