2020 Fiscal Year Annual Research Report
Project Area | Analysis and synthesis of deep SHITSUKAN information in the real world |
Project/Area Number |
20H05952
|
Research Institution | Tohoku University |
Principal Investigator |
岡谷 貴之 東北大学, 情報科学研究科, 教授 (00312637)
|
Co-Investigator(Kenkyū-buntansha) |
菅沼 雅徳 東北大学, 情報科学研究科, 助教 (00815813)
劉 星 東北大学, 情報科学研究科, 特任助教 (60870095)
鈴木 潤 東北大学, データ駆動科学・AI教育研究センター, 教授 (80396150)
|
Project Period (FY) |
2020-11-19 – 2025-03-31
|
Keywords | コンピュータビジョン / 質感認識 / 深層学習 / 自然言語処理 |
Outline of Annual Research Achievements |
人と同じように認識可能なAIシステムを実現すべく,初年度となる2020年度は研究の準備を行った.「人に近い水準で画像理解を実行できるニューラルネットワークの内部には、多様な質感概念の表現が自動的に獲得される」という仮説を立て,その概念的検討を行った.検討結果の実験的検証には計算機を要したが,コロナ禍の中,その調達が当該年度中に行えず,翌2021年度に予算の繰越を行った. 翌2021年度においては,まず必要な計算環境を整えた後,DNNによる画像理解の研究を行い,複数の成果を得た.第一に,自然言語の指示によって作業を行うAIエージェントを開発した.手法は, 国際的なベンチマークテストAlfredにおいて論文発表時点で全世界トップの性能を達成するとともに,成果の一端を国際会議IJACI2021にて発表した. 第二に,画像理解タスクの性能向上を目指して,画像記述の研究を行った.まず,これまでの手法が「比喩的表現」を基本的に行えないことに着目し,データセットとベンチマークテストを設計するとともに,評価方法を検討した.第三に,画像記述のためのより高性能かつ高効 率なDNNの設計を行った.画像特徴を取り出すのに,従来手法のように物体検出器に由来するCNNを使うのではなく,トランスフォーマーを用いることで高速化を達成した.国際的なベンチマークテストCOCO captionsにおいて,世界トップクラスの記述精度を従来手法の少なくとも数分の1の計算量で達成可能なDNNとなっている.以上の2つの成果はそれぞれ1本の論文として,国際会議に投稿中である.この他,自己教師学習の方法について研究を行い,特に近年活発に研究されている負例を用いない画像特徴の自己教師学習手法について,その有効性がどこから由来するものかを理論的に検討した.その成果は国際会議に投稿中である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究計画は2020年度後半にスタートしたが,コロナ禍の中,導入を予定していた計算機一式の購入が不可能となり,翌2021年度に予算の一部を繰越した.その後,予定していた性能の計算機一式を,入札を経て購入に漕ぎ着け,研究を加速することができた.
|
Strategy for Future Research Activity |
上述の通り本研究計画はおおむね順調に進展しているが,関連分野の研究は著しく早いペースで進展しており,それへの適切な対応が欠かせない.言語で 指定した通りの画像を,それがかなり高度で込み入った内容であっても,人間の芸術家も顔負けするような素晴らしい画像(絵画)を生成する手法(例えばDALI- E2)や,巨大言語モデルの限界の見えない進展などである.これらの新規技術は質感認知にも大きな影響を与えようとし始めており,それらとどう向き合い,取り 込むかが問われている.発展の内容の予測の難しさとペースの速さから,現時点で,その具体的方法を簡潔に述べることは不可能であり,最先端の研究内容に キャッチアップすることを怠らず,本研究の最終目標を見失うことなく,着実に研究を進める他ない.
|