• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

深層生成モデルを活用した構成的なパターン認識・理解

研究課題

研究課題/領域番号 23H00490
研究種目

基盤研究(A)

配分区分補助金
応募区分一般
審査区分 中区分61:人間情報学およびその関連分野
研究機関東京科学大学

研究代表者

篠田 浩一  東京科学大学, 情報理工学院, 教授 (10343097)

研究分担者 井上 中順  東京科学大学, 情報理工学院, 准教授 (10733397)
横田 理央  東京科学大学, 総合研究院, 教授 (20760573)
川上 玲  東京科学大学, 工学院, 准教授 (90591305)
佐藤 育郎  東京科学大学, 情報理工学院, 特任教授 (90895525)
研究期間 (年度) 2023-04-01 – 2026-03-31
研究課題ステータス 交付 (2025年度)
配分額 *注記
47,190千円 (直接経費: 36,300千円、間接経費: 10,890千円)
2025年度: 15,080千円 (直接経費: 11,600千円、間接経費: 3,480千円)
2024年度: 15,080千円 (直接経費: 11,600千円、間接経費: 3,480千円)
2023年度: 17,030千円 (直接経費: 13,100千円、間接経費: 3,930千円)
キーワード深層学習 / 画像認識 / 音声認識 / マルチモーダル認識
研究開始時の研究の概要

識別の対象(インスタンス)を属性の集合(束)とみなし,特徴量空間においてその特徴を属性ごとに分解する.そして,これらの属性特徴からインスタンスを再合成する過程で属性特徴を最適化することで,各属性を高精度で識別し,かつ,外れ値に対し頑健な識別手法を実現する.このために深層生成モデルと高密度な属性アノテーションに基づく学習手法を開発する.従来研究の多くが対象とその属性が一対一に対応する平坦な意味構造を仮定していたのに対し,本研究は多くの属性が複雑に絡み合う対象における複数の属性を同時に識別することを可能にする.新しい属性やクラスの創発も視野に入れる.

研究実績の概要

本研究課題では,識別の対象(インスタンス)を属性の集合(束)とみなし,特徴量空間においてその特徴を属性ごとに分解する.そして,これらの属性特徴からインスタンスを再合成する過程で属性特徴を最適化することで,各属性を高精度で識別し,かつ,外れ値に対し頑健な識別手法を実現することを目的としている。このために深層生成モデルと高密度な属性アノテーションに基づく学習手法を開発する.従来研究の多くが対象とその属性が一対一に対応する平坦な意味構造を仮定していたのに対し,本研究は多くの属性が複雑に絡み合う対象における複数の属性を同時に識別することを可能にする.新しい属性やクラスの創発も視野に入れる.より具体的には、深層学習を用いた「合成による識別」のアプローチにより,構成的なパターン認識・理解を行う方法論を確立する.人の動作認識,話者・感情認識,マルチモーダル認識の3つのタスクで横断的に評価し,従来に比べ高い識別性能を目指す.初年度である本年度は、人の動作認識、話者・感情認識、マルチモーダル認識の各々の課題において、評価データベースの構築と、ベースライン方式の開発を行った。これらと並行して、比較的小規模なタスクで、拡散モデルなどの生成モデルを用いて識別を行う方式の開発を行った。また、ニューラル構造探索などを用いて生成モデルの効率的な学習を行う方式も開発した。特に、センサーと映像のマルチモーダル認識における基本方式の構築、およびデータベース構築、人間の歩容認識の基本方式の開発、マルチモーダル感情認識の基本方式の開発を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

「深層学習を用いた「合成による識別」のアプローチにより,構成的なパターン認識・理解を行う方法論を確立する.人の動作認識,話者・感情認識,マルチモーダル認識の3つのタスクで横断的に評価し,従来に比べ高い識別性能を目指す.」であったが、それに対し、今年度は、その各々に対し、評価のためのベースライン(基本)方式の開発を行い、その性能を確認した。データベース構築に関しては、映像とセンサーのマルチモーダルデータベースの構築を行った。

今後の研究の推進方策

今年度はこれらの成果を発展させ、人の動作認識、話者・感情認識、マルチモーダル認識の各々において、分離すべき属性を定義し、そのdisentaglementを行う学習手法を開発し、その予備評価を行う。また、マルチモーダル認識のタスクとして、本年度から新たに手話の認識の研究を開始する。

報告書

(2件)
  • 2023 審査結果の所見   実績報告書
  • 研究成果

    (17件)

すべて 2024 2023

すべて 雑誌論文 (7件) (うち査読あり 7件、 オープンアクセス 3件) 学会発表 (10件) (うち国際学会 1件、 招待講演 1件)

  • [雑誌論文] Egocentric Human Activities Recognition With Multimodal Interaction Sensing2024

    • 著者名/発表者名
      Hao Yuzhe、Kanezaki Asako、Sato Ikuro、Kawakami Rei、Shinoda Koichi
    • 雑誌名

      IEEE Sensors Journal

      巻: 24 号: 5 ページ: 7085-7096

    • DOI

      10.1109/jsen.2023.3349191

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Co-speech Gesture Generation with?Variational Auto Encoder2024

    • 著者名/発表者名
      Ka Shinichi、Shinoda Koichi
    • 雑誌名

      Proc. International Conference on Multimedia Modeling

      巻: 1 ページ: 155-168

    • DOI

      10.1007/978-3-031-53311-2_12

    • ISBN
      9783031533105, 9783031533112
    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] CAMOT: Camera Angle-aware Multi-Object Tracking2024

    • 著者名/発表者名
      Limanta Felix、Uto Kuniaki、Shinoda Koichi
    • 雑誌名

      Proc. 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)

      巻: 1 ページ: 6465-6474

    • DOI

      10.1109/wacv57701.2024.00635

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Scale-space Tokenization for Improving the Robustness of Vision Transformers2023

    • 著者名/発表者名
      Xu Lei、Kawakami Rei、Inoue Nakamasa
    • 雑誌名

      Proceedings of the 31st ACM International Conference on Multimedia

      巻: 1 ページ: 2684-2693

    • DOI

      10.1145/3581783.3612060

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Step restriction for improving adversarial attacks2023

    • 著者名/発表者名
      Goto Keita、Otake Shinta、Kawakami Rei、Inoue Nakamasa
    • 雑誌名

      Proc. IEEE International Conference on Acoustics, Speech and Signal Processing

      巻: 5 ページ: 1-5

    • DOI

      10.1109/icassp49357.2023.10094644

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Parameter Efficient Transfer Learning for Various Speech Processing Tasks2023

    • 著者名/発表者名
      Otake Shinta、Kawakami Rei、Inoue Nakamasa
    • 雑誌名

      Proc. IEEE International Conference on Acoustics, Speech and Signal Processing

      巻: 1 ページ: 1-5

    • DOI

      10.1109/icassp49357.2023.10096311

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Multi Event Localization by Audio-Visual Fusion with Omnidirectional Camera and Microphone Array2023

    • 著者名/発表者名
      Zheng Wenru、Yoshihashi Ryota、Kawakami Rei、Sato Ikuro、Kanezaki Asako
    • 雑誌名

      2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)

      巻: 1 ページ: 1-5

    • DOI

      10.1109/cvprw59228.2023.00255

    • 関連する報告書
      2023 実績報告書
    • 査読あり / オープンアクセス
  • [学会発表] Multitask Learning of Speaker Separation and Direction-of-Arrival Estimation2024

    • 著者名/発表者名
      Roland Hartanto, Sakriani Sakti, Koichi Shinoda
    • 学会等名
      日本音響学会2024年春季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 音声強調のための拡散モデルにおける計算量の削減2024

    • 著者名/発表者名
      西 悠希,篠田 浩一,岩野 公司
    • 学会等名
      日本音響学会2024年春季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 動画像処理ニューラルネットワークを用いた日本手話の単語認識2024

    • 著者名/発表者名
      安東芳高,川上玲
    • 学会等名
      情報処理学会全国大会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 拡散モデルを用いた音声強調の計算量削減2023

    • 著者名/発表者名
      西 悠希, 岩野 公司, 篠田 浩一
    • 学会等名
      第25回音声言語および第10回自然言語処理シンポジウム
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 変分自己符号化器を用いた発話時の動作生成の研究2023

    • 著者名/発表者名
      賈 辰一, 篠田 浩一
    • 学会等名
      電子情報通信学会パターン認識・メディア理解研究会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] A Multimodal Model for Personality Recognition through Speech2023

    • 著者名/発表者名
      Nathania Nah, Takafumi Koshinaka, Koichi Shinoda, Yuri Tsuchiya
    • 学会等名
      日本音響学会2023年秋季研究発表会
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Structural MAP for LR & HMMs2023

    • 著者名/発表者名
      Koichi Shinoda
    • 学会等名
      Symposium for Celebrating 40 Years of Bayesian Learning in Speech and Language Processing and Beyond, IEEE ASRU 2023 Workshop Satellite Event,
    • 関連する報告書
      2023 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] ロボットによる物体再配置における多変量正規分布を用いた衝突回避2023

    • 著者名/発表者名
      佐藤郎真, 井上中順, 川上玲
    • 学会等名
      画像の認識・理解シンポジウムMIRU
    • 関連する報告書
      2023 実績報告書
  • [学会発表] 大規模事前学習済みニューラルネットワークの意味的階層構造の分析2023

    • 著者名/発表者名
      寺内怜央, 佐藤育郎, 吉橋亮太, 池畑諭, 加太将弘, 川上玲
    • 学会等名
      画像の認識・理解シンポジウムMIRU
    • 関連する報告書
      2023 実績報告書
  • [学会発表] Trajectory Collection with Few-Shot Imitation Learning and Proximal Policy Optimization.2023

    • 著者名/発表者名
      Kenji Cari Koga, Nakamasa Inoue, Rei Kawakami
    • 学会等名
      画像の認識・理解シンポジウムMIRU
    • 関連する報告書
      2023 実績報告書

URL: 

公開日: 2023-04-13   更新日: 2025-06-20  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi