2023 Fiscal Year Research-status Report
深層学習モデルの分解と再構成による認識原理の解明と学習効率化
Project/Area Number |
22K12089
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 深層学習 |
Outline of Annual Research Achievements |
2023年度は、前年度に音声認識と話者照合で効果が見られた深層ニューラルネットワークの適合器を、音声感情認識に応用する研究を実施した。近年の音声を扱う深層ニューラルネットワークは、自己教師あり学習に基づく事前学習の成功にもとない大規模化が進んでいる一方で、音声感情認識などそれぞれのタスクに対して、深層ニューラルネットワークのファインチューニングを個別におこなうことは非効率である。そこで、本年度の研究では、事前に学習された自己教師あり音表現モデルを固定して用い、そこに小さな適合器と呼ばれるニューラルネットワークを挿入する方法に関して、新たなネットワーク構造を提案した。これは音声認識、話者照合、音声感情認識のどれにも効果がある構造である。具体的にはL-adapterとE-adapterと呼ばれる2種類の適合器を構成し、低層の話者依存特徴を効率よく抽出する方法を提案した。評価実験では、音声認識と話者照合タスクに加えて、音声感情認識タスクに対しても提案手法の実装をおこない、従来のファインチューニ ング法と同程度の精度が、従来よりもより少ないパラメータ数(約9割の削減)で達成可能であることを実証した。前年度に続き高い計算量の削減効果が得られたため、研究は順調に進められていると言える。現在は、提案法をさらに拡充し、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組んでおり、これらも成果が得られる見込みにある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度はニューラルネットワークの適合器の研究を拡大し、音声認識、話者照合、音声感情認識のどれにも効果がある適合器を提案することで、大きく計算効率を向上させることができたため、研究は概ね順調に進展している。また、提案手法により想定以上に計算効率が高まったことから、計算機利用料が削減でき、次年度使用額が生じた。次年度使用額は計算機利用料、GPUパソコン購入費用、海外発表用の旅費の支出に用いる予定である。
|
Strategy for Future Research Activity |
2024年度は、深層ニューラルネットワークの適合器について、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組む。また、自己教師あり学習モデルを複数導入し、より最新のモデルでも提案法の効果があることを示す実験を実施する。
|
Causes of Carryover |
適合器を用いた提案手法により当初の想定以上に計算効率が高まったことから、計算機利用料が削減でき、次年度使用額が生じた。次年度使用額は計算機利用料、GPUパソコン購入費用、海外発表用の旅費の支出に用いる予定である。
|