深層異常検出のための表現学習

研究課題

研究課題/領域番号	23K11222
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	東京理科大学
研究代表者	安藤晋東京理科大学, 経営学部ビジネスエコノミクス学科, 教授 (70401685)
研究期間 (年度)	2023-04-01 – 2027-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円) 2026年度: 910千円 (直接経費: 700千円、間接経費: 210千円) 2025年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2023年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
キーワード	分布外検出 / 異常検出 / 説明可能性 / Data-to-text / 自己教師付き学習 / Transformer / 継続学習
研究開始時の研究の概要	本課題では機械学習分野において重要かつ困難な問題である異常検出をテーマとする．この問題に取り組む上で，深層学習分野で注目を集める分布外検出や継続学習などの最新の関連問題との位置付けを考察する．分布外検出では訓練時に未知である分布外例を検出する表現の原理，継続学習では記憶再生など定常的なモデル更新の仕組みに着目する．これらの問題におけるSOTA達成を目指す過程で知見を蓄積し，それを踏まえて異常検出の新たな枠組みを開発する．特に事前知識と正常例から異常性に関する表現を推測し，損失として学習に取り込む方法を検討する．開発した枠組みを画像および時系列のベンチマークおよび実世界タスクにおいて検証する．
研究実績の概要	本計画は近年深層学習分野で急速に進展した分布外検出や継続学習の手法における，自己教師付き学習などの技術をよりアプリケーション依存性の高い異常検出問題に活用するため拡張・洗練することを目的として実施している．初年度は分布外検出問題におけるState-of-the-artと同等以上の性能を達成し，その過程で異常に相当する訓練時未遭遇のケースを扱う知見を獲得することを目指した．その中で分布外検出において扱いが未整備であった，遠分布外（Far OOD）と近分布外（Near OOD）の問題において重要な気付きがあった．近分布外は訓練分布に文脈的にもしくは視覚的に近い分布からのサンプル，遠分布外は逆に訓練分布から遠い分布からのサンプルであるが，異常検出問題においてもアプリケーションによって異常例は通常例の分布から遠近の場合いずれも存在する．このような議論は異常検出の既存研究ではみられなかったが重要な区別である．われわれは分布外検出問題において遠近分布外サンプルを検出するための有効な訓練方法がそれぞれ異なる理由について仮説を立て，既存手法を用いて実験的に検証した．その結果を踏まえて，遠近分布外ケースいずれに対しても検出できるアンサンブルスコアを提案し，State-of-the-art手法を上回る精度を実現した．以上の成果は国際会議ICPRAM2024 にて Poster発表を行った．また，6月開催12月ACM 掲載予定のICISDM 国際会議で口頭発表を行う予定である．現在は近分布外検出に有効であった自己教師付き学習手法の異常検出問題に対する応用を検証している．その中で必要となる局所化によるExplainability，Transformerモデル，Data-to-Text等の実装を行なっている．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由（２）当初の目標としていた分布外検出問題において，遠近分布外という異常検出に関する知見を得て，新たなState-of-the-artを発表することができた．それに基づいて開発した手法を異常検出問題における有効性についても検証に着手することができた．自己教師付き表現学習の異常検出への応用についても有力であることを示唆する結果が得られたが，説明可能性，局所化，自己注意およびTransformerモデルなど様々な技術が実現に必要であることが分かった．それらの調査および実装は滞りなく進められている．さらに，分布外検出と比較して異常例が大きく異なる点が，単に訓練時に遭遇していないだけでなく，不良や危険性などのクリティカルな特徴を持つことが重要であることから，説明可能性の方法論の構築を計画に加えた．Explainable深層モデルやData-to-textモデルを検出した異常の提示方法として検討し，正常性の記述，予測と観測のずれの記述，異常性の記述などを段階的なターゲットを設定して，学習方法の設計を進めている．当初計画した目標には到達し，新たに追加された課題についても滞りはなく調査，実装を進めており，全体として順調な進展といえる
今後の研究の推進方策	初年度の成果から，自己教師付き表現学習の異常検出への応用について有力な手がかりが得られた．これは文脈的な異常の検出の方法論として視覚的な異常の検出に強い再現誤差に基づく学習と補うことが期待できるが，説明可能性，局所化，自己注意およびTransformerモデルなど様々な技術が実現に必要であることが分かった．今後の計画ではそれらの調査・実装・検証を進める．さらに，分布外検出問題に取り組む上で異常例と分布外例の重要な違いが，単に訓練時に遭遇していないだけでなく，不良や危険性などのアプリケーションにクリティカルな特徴を持つことが分かった．このことから，異常の説明可能性に関しても，計画に加え， Explainable深層モデルやData-to-textモデルを検出した異常の提示方法として調査する．また，正常性の記述，予測と観測のずれの記述，異常性の記述などを段階的なターゲットを設定して，学習方法の設計を進める．当初の目標であった分布外検出に関する知見の活用に加え，新たに説明可能性の方法論の構築も目標に加えて第二年度以降の計画を実施する．