研究課題/領域番号 |
21H03456
|
配分区分 | 補助金 |
研究機関 | 北海道大学 |
研究代表者 |
小川 貴弘 北海道大学, 情報科学研究院, 准教授 (20524028)
|
研究分担者 |
前田 圭介 北海道大学, 総合IR室, 特任助教 (20798243)
藤後 廉 北海道大学, 情報科学研究院, 特任助教 (60840395)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
キーワード | 人工知能 / IoT / エッジAI / モデルクローニング / クロスモーダル知識転移 / 低演算量 / 少量データ学習 / バイナリスパース表現 |
研究実績の概要 |
本研究課題では、エッジAI時代の超低演算量・低容量化を実現する汎用深層学習理論の構築を目指す。研究代表者が進めてきた低演算量・低容量バイナリスパース表現技術とクロスモーダル埋め込み技術の研究を融合させ、AIの演算量と学習データ量を大幅に削減可能な新たな理論を構築する。具体的に、最先端の深層学習モデルをバイナリスパース表現により模倣し、さらに、他のモダリティからの知識転移を行うことで、深層学習の利点である高い精度を保持しつつ、演算量削減と学習データ量の小規模化を同時に実現する。本研究課題では、構築した理論が汎用性を有することを示すとともに、エッジデバイス上での評価検証を行う。尚、本研究課題は研究分担者とともに遂行し、実施項目である「① モデルクローニング技術の実現による演算量の削減」および「② クロスモーダル知識転移技術の実現による学習データ量の小規模化」については、①の研究を小川・藤後が、②の研究を小川・前田が実施する。 令和3年度は、「深層学習モデルにおける中間層出力」と「バイナリスパース表現係数」との間で相関を最大化するクロスモーダル埋め込み理論を構築した。具体的に、ソースドメインに対応する実数データとバイナリスパース表現係数との間でクロスモーダル埋め込みを行い、それらの相関が最大化されるよう、バイナリスパース表現における辞書学習を可能とした。この際、バイナリスパース表現係数は0または1の疎なデータであることに注目し、観測データがバイナリスパース値である制約を設けた新たなクロスモーダル埋め込み理論を実現した。さらに、構築した理論やその応用に関する研究成果の対外発表についても積極的に行い、クロスモーダル埋め込み理論を応用した研究成果が画像処理分野における世界最高峰の国際会議ICIP等に採択されている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究課題では、「① モデルクローニング技術の実現による演算量の削減」および「② クロスモーダル知識転移技術の実現による学習データ量の小規模化」を主な軸として研究を進める。5つのフェーズ(【フェーズ1】バイナリスパース制約付クロスモーダル埋め込み理論の実現、【フェーズ2】バイナリスパース深層学習モデルの実現、【フェーズ3】バイナリスパース深層学習モデルの汎用性拡張、【フェーズ4】モデルの軽量化と低容量化、【フェーズ5】エッジデバイスへの適用と実現理論の横展開)を配しており、各年度で実施する予定である。 令和3年度は、本研究課題の基盤技術となる【フェーズ1】を実施した。具体的に、「深層学習モデルにおける中間層出力」と「バイナリスパース表現係数」とを間での相関を考慮した埋め込みを実現するクロスモーダル埋め込み理論を、相関分析を応用することで構築した。本理論の実現によって、観測データを制約付き埋め込み空間へ射影することが可能となり、射影された特徴量を用いることで演算量の削減が期待できる。さらに令和3年度は、令和4年度に実施を予定している【フェーズ2】に先行着手し、画像用深層学習モデルおよびテキスト用深層学習モデルを用いて構築した理論の有効性検証を開始した。具体的には、画像認識のバックボーンモデルとして用いられるResNetやDenseNet、テキスト認識用の事前学習モデルCLIPやGPT-2等のモデルについて、中間層出力の特徴変換技術を構築し、その有効性を確認した。さらに、得られた研究成果の対外発表についても積極的に行っており、生体データに対してクロスモーダル埋め込み理論を応用した研究成果が画像処理分野における世界最高峰の国際会議ICIP等に採択されている。また、本理論の応用として、埋め込み空間の特徴量を用いたdisentanglementへの応用可能性についても検討を行った。
|
今後の研究の推進方策 |
令和3年度では、当初の予定通り研究課題の基盤技術となる「【フェーズ1】バイナリスパース制約付クロスモーダル埋め込み理論の実現」に取り組んだ。クロスモーダル埋め込み理論の構築に成功し、得られた研究成果の対外発表も行った。令和4年度は、令和3年度の研究が計画通りに遂行されたこともあり、当初の予定通り「【フェーズ2】バイナリスパース深層学習モデルの実現」に取り組む予定である。尚、【フェーズ2】において利用予定の画像用深層学習モデルおよびテキスト用深層学習モデルについては、令和3年度の先行着手により利用モデルの検討を既に開始しており、複数のモデルを用いて研究を遂行する予定である。 令和4年度では、前フェーズにて構築したクロスモーダル埋め込み理論を用いて、バイナリスパース深層学習モデルの実現を目指す。具体的に、演算量削減と学習データ量の小規模化のそれぞれを以下のように実現する。まず、前年度に構築した「深層学習モデルの中間層出力」と「バイナリスパース深層学習モデルの中間出力」との相関を最大化する理論に加えて、データの近似誤差最小化を可能にする損失関数を新たに組み込むことで、各中間層出力を低演算量のバイナリスパース表現で模倣するモデルクローニングを実現する。次に、異なる種類のモダリティ(画像と、クラス情報、キャプション等)の相関を最大化する理論を構築することで、学習データ量の不足をモダリティ相関に基づき補間するクロスモーダル知識転移を実現する。 なお,令和4年度についても得られた研究成果の横展開を拡張し,国際会議や学術論文誌への投稿を積極的に行っていく予定である.具体的には,信号処理分野における世界最高峰の国際会議ICASSPや画像処理分野の世界最大規模の国際会議ICIP等などへの投稿を予定している.
|