研究課題/領域番号 |
22K12089
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 東京工業大学 |
研究代表者 |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
|
研究期間 (年度) |
2022-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | 深層学習 / 画像認識 |
研究開始時の研究の概要 |
本研究では,深層学習モデルの各層を有限個の基底関数に分解するというアイデアに基づいて解析することで,どこで何を認識しているかを明確化する.そして,モデルの分解と再構築の方法論を確立し,従来よりも高効率・少量データでの深層学習が可能となることを明らかとする.研究対象は画像および映像であり,物体認識・動作認識などのタスクで評価を行う.
|
研究実績の概要 |
2023年度は、前年度に音声認識と話者照合で効果が見られた深層ニューラルネットワークの適合器を、音声感情認識に応用する研究を実施した。近年の音声を扱う深層ニューラルネットワークは、自己教師あり学習に基づく事前学習の成功にもとない大規模化が進んでいる一方で、音声感情認識などそれぞれのタスクに対して、深層ニューラルネットワークのファインチューニングを個別におこなうことは非効率である。そこで、本年度の研究では、事前に学習された自己教師あり音表現モデルを固定して用い、そこに小さな適合器と呼ばれるニューラルネットワークを挿入する方法に関して、新たなネットワーク構造を提案した。これは音声認識、話者照合、音声感情認識のどれにも効果がある構造である。具体的にはL-adapterとE-adapterと呼ばれる2種類の適合器を構成し、低層の話者依存特徴を効率よく抽出する方法を提案した。評価実験では、音声認識と話者照合タスクに加えて、音声感情認識タスクに対しても提案手法の実装をおこない、従来のファインチューニ ング法と同程度の精度が、従来よりもより少ないパラメータ数(約9割の削減)で達成可能であることを実証した。前年度に続き高い計算量の削減効果が得られたため、研究は順調に進められていると言える。現在は、提案法をさらに拡充し、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組んでおり、これらも成果が得られる見込みにある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度はニューラルネットワークの適合器の研究を拡大し、音声認識、話者照合、音声感情認識のどれにも効果がある適合器を提案することで、大きく計算効率を向上させることができたため、研究は概ね順調に進展している。また、提案手法により想定以上に計算効率が高まったことから、計算機利用料が削減でき、次年度使用額が生じた。次年度使用額は計算機利用料、GPUパソコン購入費用、海外発表用の旅費の支出に用いる予定である。
|
今後の研究の推進方策 |
2024年度は、深層ニューラルネットワークの適合器について、音声からの意図推定や、入力プロンプトに対する適合器の作成に取り組む。また、自己教師あり学習モデルを複数導入し、より最新のモデルでも提案法の効果があることを示す実験を実施する。
|