2013 Fiscal Year Annual Research Report
ノイズを含むストリームデータ環境における省メモリかつ高速なオンライン学習
Project/Area Number |
12J09511
|
Research Institution | The University of Tokyo |
Principal Investigator |
大岩 秀和 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
Keywords | オンライン学習 / スパース正則化 / ビッグデータ / 特徴選択 / 認知バイアス / 確率的最適化 / 効用関数 / 機械学習 |
Research Abstract |
1. オンライン学習のための適応的正則化手法の一般化 データ数や特徴量次元数が大きい大規模データからの解析として有効的な, 様々なスパースオンライン学習手法が過去に提案されてきた. 筆者らは, データの前処理が困難であるオンライン学習の性質から, これらの既存手法は特徴量のバイアスにより性能が大きく劣化する事を指摘してきた. 筆者らはこのバイアスを緩和する適応的正則化手法を複数のアルゴリズムへ汎用的に適用可能な形で定式化し, 統一的な高速化手法・理論解析のフレームワークを提供した. 2. LO Elastic net正則化と効率的ソルバー提案 多数の機械学習アルゴリズムはタスクに応じて最適化問題を構築し, それを効率的に解くことで予測モデルを構築する. 本研究では, 最適化問題へ導入する正則化項として強力なスパース化効果とグループ化効果を併せ持つLO elastic netを提案した. 従来手法では, 特徴選択とパラメータ最適化を同時に満たすには二段階のプロセスが必要であったが, 双対分解と呼ばれる最適化の技術を導入したソルバーをこの正則化項に適用することで, 同時最適化が一プロセスで可能になる事を示した. 3. 人間の認知バイアスを考慮したオンライン学習アルゴリズムの提案 オンライン学習では予測ルールが逐次的に更新されるため, 過去の正答データが再度出現した際に予測を誤る事がある. この時効用を著しく損なうことが人間の認知バイアスによって示唆される. 本研究では, この認知バイアスが機械学習を用いたサービスのユーザ評価に与える影響を検証し, 認知バイアスによる効用損失が実在することを示した. また, 認知バイァスを導入した目的関数を立式し, 最適解への収束性を持つを動的アルゴリズムを導出した. このアルゴリズムは未知データに対する予測精度を低下させること無く, 認知バイアスによる損失を低下させる事を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
データの性質を動的に予測モデルへ織り込むオンライン学習アルゴリズムを汎用的な枠組みとして拡張し, 既存の多くのアルゴリズムへの拡張を可能にした. その研究成果は, 査読付き国際論文誌であるSCISのICUM Special Issueとして採録された. また, LO elastic netに対する理論解析およびソルバーの提案を行い, 従来の手法よりもコンパクトかつ予測精度の高い学習器を高速に構築できるようになった. この成果に関してはNIPS2013に併設の国際ワークショップであるDISCMLに採択され, 研究発表を行った. 次に, 人間の授かり効果と呼ばれるバイアスを考慮したオンライン学習の枠組みの定式化とアルゴリズムの提案を行い, これはJSAIの全国大会にて研究発表を行い, 学生奨励賞を獲得した.
|
Strategy for Future Research Activity |
はじめに, 前年度までに提案したモデルの間の関係性をデータノイズの観点から体系化する. データノイズには複数の種類が存在し, 個々のノイズにはアルゴリズムへ与える影響も異なるため, 別種の対策を取る必要があると考えられる. 各種データノイズを体系化し, 一つ一つの問題の緩和方法をまとめることで, 今後データノイズを含むストリームデータからの解析および運用に不可欠なフレームワークとしてまとめることを目指す. 特に, 今回の成果であったように人間の持つ認知バイアス等を一種のデータノイズとしてとらえた研究を今後, 理論・実用の両面から推し進めていきたい.
|
Research Products
(5 results)