深層学習モデルの分解と再構成による認識原理の解明と学習効率化

Research Project

Project/Area Number	22K12089
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Tokyo Institute of Technology
Principal Investigator	井上中順東京工業大学, 情報理工学院, 准教授 (10733397)
Project Period (FY)	2022-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000) Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000) Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Keywords	深層学習 / 画像認識
Outline of Research at the Start	本研究では，深層学習モデルの各層を有限個の基底関数に分解するというアイデアに基づいて解析することで，どこで何を認識しているかを明確化する．そして，モデルの分解と再構築の方法論を確立し，従来よりも高効率・少量データでの深層学習が可能となることを明らかとする．研究対象は画像および映像であり，物体認識・動作認識などのタスクで評価を行う．
Outline of Annual Research Achievements	2023年度は、前年度に音声認識と話者照合で効果が見られた深層ニューラルネットワークの適合器を、音声感情認識に応用する研究を実施した。近年の音声を扱う深層ニューラルネットワークは、自己教師あり学習に基づく事前学習の成功にもとない大規模化が進んでいる一方で、音声感情認識などそれぞれのタスクに対して、深層ニューラルネットワークのファインチューニングを個別におこなうことは非効率である。そこで、本年度の研究では、事前に学習された自己教師あり音表現モデルを固定して用い、そこに小さな適合器と呼ばれるニューラルネットワークを挿入する方法に関して、新たなネットワーク構造を提案した。これは音声認識、話者照合、音声感情認識のどれにも効果がある構造である。具体的にはL-adapterとE-adapterと呼ばれる２種類の適合器を構成し、低層の話者依存特徴を効率よく抽出する方法を提案した。評価実験では、音声認識と話者照合タスクに加えて、音声感情認識タスクに対しても提案手法の実装をおこない、従来のファインチューニング法と同程度の精度が、従来よりもより少ないパラメータ数(約9割の削減)で達成可能であることを実証した。前年度に続き高い計算量の削減効果が得られたため、研究は順調に進められていると言える。現在は、提案法をさらに拡充し、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組んでおり、これらも成果が得られる見込みにある。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度はニューラルネットワークの適合器の研究を拡大し、音声認識、話者照合、音声感情認識のどれにも効果がある適合器を提案することで、大きく計算効率を向上させることができたため、研究は概ね順調に進展している。また、提案手法により想定以上に計算効率が高まったことから、計算機利用料が削減でき、次年度使用額が生じた。次年度使用額は計算機利用料、GPUパソコン購入費用、海外発表用の旅費の支出に用いる予定である。
Strategy for Future Research Activity	2024年度は、深層ニューラルネットワークの適合器について、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組む。また、自己教師あり学習モデルを複数導入し、より最新のモデルでも提案法の効果があることを示す実験を実施する。