Building World Knowledge by Grounding Language and Multimedia
Project/Area Number |
19H04166
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
Hideki Nakayama 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2022: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2021: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2020: ¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2019: ¥5,590,000 (Direct Cost: ¥4,300,000、Indirect Cost: ¥1,290,000)
|
Keywords | 画像認識 / 自然言語処理 / 知識獲得 / 知識グラフ / 世界知識 / マルチメディア / マルチモーダル / 人工知能 / ゼロショット認識 / 未来予測 / 少量データ学習 / グラウンディング / 深層学習 / シーングラフ / ストーリー生成 / 教師なし学習 |
Outline of Research at the Start |
言語を理解し操るための背景となる常識的知識(世界知識)をいかにしてコンピュータに与えるかは、自然言語処理における古くからの難問である。本研究では、画像・動画像等のマルチメディアをマイニングし、世界知識を構築する新しいアプローチを提案する。画像や動画像は実世界の観察そのものであり、陽にテキスト化されにくい日常的な物事の時空間的な共起関係や因果関係に関する豊富な情報を含んでいるため、テキストマイニングで得られる世界知識を強力に補完するものになると期待できる。
|
Outline of Final Research Achievements |
In this research, we developed a series of methods for mining commonsense knowledge about various concepts from multimedia data such as images, videos, and text, preparing it as a database with a graph structure (named Multimedia World Knowledge), and utilizing it for various artificial intelligence tasks. These results have been presented at a total of 27 international conferences and international journals (9 of which were accepted by top conferences), and have been highly acclaimed internationally.
|
Academic Significance and Societal Importance of the Research Achievements |
画像やテキストの認識・生成を行う人工知能は近年驚異的な進歩を遂げ、社会的にも大きなインパクトを与えている。その原動力となったのは、大量のデータから学習した大規模言語モデルであるが、本研究では知識グラフという異なる形式の知識基盤の獲得方法とその有効性を示した点に独創性がある。知識グラフは、大規模言語モデルと併用することで人工知能の性能をさらに向上できる可能性があると同時に、解釈性や可制御性に優れた表現であるため、今後の社会でより信頼性の高い人工知能技術を実装・展開するための重要なアプローチになると考えられる。
|
Report
(5 results)
Research Products
(75 results)
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Neural Networks in a Product of Hyperbolic Spaces2022
Author(s)
Jun Takeuchi, Noriki Nishida, Hideki Nakayama
-
Journal Title
Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Student Research Workshop
Volume: -
Pages: 211-221
Related Report
Peer Reviewed / Open Access
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-