本研究課題では,深層学習に基づく動作認識において,データの時間遷移,即ち順序構造が存在するようなデータに対する特徴を抽出するための深層学習技術の開発を目的としている.近年では,Transformerが機械学習分野で広く用いられている.これは,自然言語処理分野で発表された深層学習モデルであり,単語列(トークンの系列データ)を入力する.さらにTransformerを画像認識分野に適用したVision Transformer (ViT) が提案されており,画像を微小なパッチに分割したり,動画フレームをトークンとして入力することで様々な画像認識タスクで高い認識精度を達成している.今年度は,このViTを対象として,有効な特徴抽出ないしは特徴抽出を可能とするパラメータを抽出を行った. 具体的には,ViTは大規模な事前学習済みモデルを初期値として,対象のデータに対して追加学習を行うことが一般的であることから,前学習済みモデルに含まれる有用な特徴表現を維持しつつ,冗長な重みを枝刈りする手法を提案した.事前学習で獲得した知識を下流タスクで十分に活用するためには,入力データの特徴抽出に貢献する浅い層の特徴表現の維持が特に重要であることを明らかにし,事前学習モデルの特徴表現を維持しつつ,下流タスク(対象のデータ)に適用するための枝刈り手法を提案した.これにより,事前学習時の有効な特徴抽出と下流タスクに対して有効な特徴抽出を実現することを可能とし,パラメータ数を削減しつつ高精度な画像分類を可能とした.
|