研究課題/領域番号 |
22K12089
|
研究機関 | 東京工業大学 |
研究代表者 |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
キーワード | 深層学習 |
研究実績の概要 |
2022年度は、深層ニューラルネットワークの適合器について研究を実施した。近年の深層ニューラルネットワークは大規模化が進んでおり、音処理では、音声認識、話者認識、感情認識などといったそれぞれのタスクに対して、深層ニューラルネットワークの学習を個別におこなうことが非効率となりつつある。そこで、本年度の研究では、事前に学習された自己教師あり音表現モデルを固定して用い、そこに小さな適合器と呼ばれるニューラルネットワークを挿入することで、個別のタスクに適したモデルを得る手法を提案した。評価実験では、まず音声認識と話者照合タスクで提案手法の実装をおこない、従来のファインチューニング法と同程度の精度が、従来よりもより少ないパラメータ数(約8割の削減)で達成可能であることを実証した。この成果は、深層ニューラルネットワークを細かく分解し、再構築を可能とするための要素技術になると考えられるため、研究は順調に進められていると言える。また、複数の大規模モデルから1つの小規模モデルを得るための知識蒸留法についても検討をおこなっている。この部分に関してはまだ成果が得られていない。特に複数の大規模モデルを用いる場合、GPUメモリ不足や計算量(及び計算機使用量)が増大する問題があり、上記の適合器と組み合わせるなど、いくつか効率的な方針を検討中である。これらの実験は音声データをもとに実施しているが、様々なデータでの効果を検証するため、今後は画像データへの応用も視野に入れて研究を進める必要がある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究初年度から深層ニューラルネットワークの適合器に関する成果が得られたため、研究は当初の計画以上に進展している。
|
今後の研究の推進方策 |
2023年度は、深層ニューラルネットワークの適合器について、感情認識など、音声情報処理に関するタスクの種類を増やして実験をおこなう予定である。また、複数の大規模モデルを用いた知識蒸留に関しても研究を継続し、新たな手法の提案を目指す。
|
次年度使用額が生じた理由 |
初年度はニューラルネットワークの適合器の研究を実施し、想定よりも大きく計算効率を向上させることができたため、計算機利用料も削減でき、次年度使用額が生じた。次年度以降は、より大規模なデータを扱うモデルの作成に挑戦する方針をとり、次年度使用額は計算機利用料、GPUパソコン購入費用、海外発表用の旅費の支出に用いる予定である。
|