Project/Area Number |
23H00490
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Medium-sized Section 61:Human informatics and related fields
|
Research Institution | Institute of Science Tokyo |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
横田 理央 東京工業大学, 学術国際情報センター, 教授 (20760573)
川上 玲 東京工業大学, 工学院, 准教授 (90591305)
佐藤 育郎 東京工業大学, 情報理工学院, 特任准教授 (90895525)
|
Project Period (FY) |
2023-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥47,190,000 (Direct Cost: ¥36,300,000、Indirect Cost: ¥10,890,000)
Fiscal Year 2024: ¥15,080,000 (Direct Cost: ¥11,600,000、Indirect Cost: ¥3,480,000)
Fiscal Year 2023: ¥17,030,000 (Direct Cost: ¥13,100,000、Indirect Cost: ¥3,930,000)
|
Keywords | 深層学習 / 画像認識 / 音声認識 / マルチモーダル認識 |
Outline of Research at the Start |
識別の対象(インスタンス)を属性の集合(束)とみなし,特徴量空間においてその特徴を属性ごとに分解する.そして,これらの属性特徴からインスタンスを再合成する過程で属性特徴を最適化することで,各属性を高精度で識別し,かつ,外れ値に対し頑健な識別手法を実現する.このために深層生成モデルと高密度な属性アノテーションに基づく学習手法を開発する.従来研究の多くが対象とその属性が一対一に対応する平坦な意味構造を仮定していたのに対し,本研究は多くの属性が複雑に絡み合う対象における複数の属性を同時に識別することを可能にする.新しい属性やクラスの創発も視野に入れる.
|
Outline of Annual Research Achievements |
本研究課題では,識別の対象(インスタンス)を属性の集合(束)とみなし,特徴量空間においてその特徴を属性ごとに分解する.そして,これらの属性特徴からインスタンスを再合成する過程で属性特徴を最適化することで,各属性を高精度で識別し,かつ,外れ値に対し頑健な識別手法を実現することを目的としている。このために深層生成モデルと高密度な属性アノテーションに基づく学習手法を開発する.従来研究の多くが対象とその属性が一対一に対応する平坦な意味構造を仮定していたのに対し,本研究は多くの属性が複雑に絡み合う対象における複数の属性を同時に識別することを可能にする.新しい属性やクラスの創発も視野に入れる.より具体的には、深層学習を用いた「合成による識別」のアプローチにより,構成的なパターン認識・理解を行う方法論を確立する.人の動作認識,話者・感情認識,マルチモーダル認識の3つのタスクで横断的に評価し,従来に比べ高い識別性能を目指す.初年度である本年度は、人の動作認識、話者・感情認識、マルチモーダル認識の各々の課題において、評価データベースの構築と、ベースライン方式の開発を行った。これらと並行して、比較的小規模なタスクで、拡散モデルなどの生成モデルを用いて識別を行う方式の開発を行った。また、ニューラル構造探索などを用いて生成モデルの効率的な学習を行う方式も開発した。特に、センサーと映像のマルチモーダル認識における基本方式の構築、およびデータベース構築、人間の歩容認識の基本方式の開発、マルチモーダル感情認識の基本方式の開発を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
「深層学習を用いた「合成による識別」のアプローチにより,構成的なパターン認識・理解を行う方法論を確立する.人の動作認識,話者・感情認識,マルチモーダル認識の3つのタスクで横断的に評価し,従来に比べ高い識別性能を目指す.」であったが、それに対し、今年度は、その各々に対し、評価のためのベースライン(基本)方式の開発を行い、その性能を確認した。データベース構築に関しては、映像とセンサーのマルチモーダルデータベースの構築を行った。
|
Strategy for Future Research Activity |
今年度はこれらの成果を発展させ、人の動作認識、話者・感情認識、マルチモーダル認識の各々において、分離すべき属性を定義し、そのdisentaglementを行う学習手法を開発し、その予備評価を行う。また、マルチモーダル認識のタスクとして、本年度から新たに手話の認識の研究を開始する。
|