Transformerアーキテクチャに基づくマルチモーダル物体認識技術の開発

Research Project

Project/Area Number	22K17918
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Niihama National College of Technology
Principal Investigator	田中大介新居浜工業高等専門学校, 機械工学科, 准教授 (70782613)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2022: ¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Keywords	物体認識 / Transformer / マルチモーダルセンサ / 特徴抽出 / センサフュージョン / 自己符号化器
Outline of Research at the Start	近年、センサの低価格化に伴い、様々な環境において、マルチモーダルセンサ情報（視覚・触覚・聴覚など）が得られるようになっている。このセンサから得られる膨大な情報を実時間で統合し活用できれば、産業分野における異常検出など、様々な応用先が考えられる。本研究ではそれらセンサ情報に基づく物体認識を問題設定とし、その膨大な情報を用いた低計算量での認識を実現するため、マルチモーダルセンサ情報を相補的に利活用するアルゴリズムを提案する。提案法は畳み込みなどの演算を必要とせず、従来法よりも低計算量での認識を可能にし、様々な産業分野における実時間認識技術の確立に貢献できる。
Outline of Annual Research Achievements	近年、視覚・触覚・聴覚など様々なセンサが実用化され、これらのセンサを組み合わせである『マルチモーダルセンサ』の情報が手軽に得られる状況になっており、様々な分野で活用することが期待されている。本研究ではマルチモーダルセンサ情報に基づく物体認識問題に対し、Transformerアーキテクチャに基づく物体認識モデルを構築し、マルチモーダルセンサ情報を相補的に利活用する低計算量な物体認識法を開発することを目的としている。令和5年度は、昨年度提案した認識アルゴリズムの有効性と実用性の確認を行うため、ロボットによる認識実験を予定していた。まず、アーム型のロボットを導入し、既存のセンサを組み合わせて、環境要因をできるだけ排除可能な実験システムを整えた。このシステムを用いて、視覚・聴覚情報に特徴が含まれる物体を対象にした認識実験を計画した。必要な認識モデルの学習用データの取得ならびに学習を行い、実用性の観点から認識アルゴリズムの特徴を明らかにするための作業を行った。これに並行して、認識アルゴリズムのハードウェア実装に関する検討を行った。実環境における性能評価を行う際に、汎用の計算機で認識演算を行うと、演算時間に大きなばらつきが見られた。このばらつきを含む評価単位で提案アルゴリズムの有効性を測るよりも、実際の利用環境を想定した評価を行うことが有益と考え、専用ハードウェアへの実装が一つの解であると考えた。そのため、実験を行うにあたり、汎用の計算機での実験に並行し、専用ハードウェアへの実装方法について検討を開始した。当該年度においては、Transformerアーキテクチャのうち、Attention機構についての実装可能性と、実装可能なモデルの複雑さの調査を行った。
Current Status of Research Progress	Current Status of Research Progress 3: Progress in research has been slightly delayed. Reason 認識アルゴリズムの有効性と実用性の確認を行うためのロボットによる認識実験について、ロボットの導入が想定より遅くなったことにより、認識モデルの学習データが不十分な状態である。この実験を早急に進め、提案アルゴリズムの特性解析を急ぎたいと考えている。
Strategy for Future Research Activity	当初2年間で実施する計画であったが、実験の遅れにより計画を変更（1年間延長）した。この遅れを取り戻し、ハードウェア実装の可能性についても並行して検証したい。

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(3 results)

All 2024 2022

All Presentation (3 results) (of which Int'l Joint Research: 2 results)

[Presentation] FPGA-Based Deep-Pipelined Architecture for Vision Transformer's Multi-Head Attention2024
- Author(s)
  Hasitha Muthumala Waidyasooriya, Masanori Hariyama, Daisuke Tanaka
- Organizer
  The 25th Workshop on Synthesis And System Integration of Mixed Information Technologies (SASIMI 2024)
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] A feature extraction method for anomaly detection of objects from auditory information using autoencoder2022
- Author(s)
  Rikuto Kawaguchi, Daisuke Tanaka
- Organizer
  The 54th ISCIE International Symposium on Stochastic Systems Theory and Its Applications
- Related Report
  2022 Research-status Report
- Int'l Joint Research
[Presentation] Transformerアーキテクチャに基づく視覚・聴覚情報の統合システムの開発2022
- Author(s)
  田中大介, 川口陸斗
- Organizer
  第37回信号処理シンポジウム
- Related Report
  2022 Research-status Report

Transformerアーキテクチャに基づくマルチモーダル物体認識技術の開発

Principal Investigator

田中 大介 新居浜工業高等専門学校, 機械工学科, 准教授 (70782613)

¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] FPGA-Based Deep-Pipelined Architecture for Vision Transformer's Multi-Head Attention2024

Author(s)

Organizer

Related Report

[Presentation] A feature extraction method for anomaly detection of objects from auditory information using autoencoder2022

Author(s)

Organizer

Related Report

[Presentation] Transformerアーキテクチャに基づく視覚・聴覚情報の統合システムの開発2022

Author(s)

Organizer

Related Report

田中大介新居浜工業高等専門学校, 機械工学科, 准教授 (70782613)