研究課題/領域番号 |
19H04166
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2022年度: 3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2021年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2020年度: 4,030千円 (直接経費: 3,100千円、間接経費: 930千円)
2019年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
|
キーワード | 画像認識 / 自然言語処理 / 知識獲得 / 知識グラフ / 世界知識 / マルチメディア / マルチモーダル / 人工知能 / ゼロショット認識 / 未来予測 / 少量データ学習 / グラウンディング / 深層学習 / シーングラフ / ストーリー生成 / 教師なし学習 |
研究開始時の研究の概要 |
言語を理解し操るための背景となる常識的知識(世界知識)をいかにしてコンピュータに与えるかは、自然言語処理における古くからの難問である。本研究では、画像・動画像等のマルチメディアをマイニングし、世界知識を構築する新しいアプローチを提案する。画像や動画像は実世界の観察そのものであり、陽にテキスト化されにくい日常的な物事の時空間的な共起関係や因果関係に関する豊富な情報を含んでいるため、テキストマイニングで得られる世界知識を強力に補完するものになると期待できる。
|
研究成果の概要 |
本研究では、画像・動画像・テキスト等のマルチメディアデータからさまざまな概念に関する常識的知識をマイニングし、これをグラフ構造を有するデータベース(マルチメディア世界知識と名付ける)として整え、コンピュータビジョンや自然言語処理などの応用タスクへ活用する一連の手法を開発した。これらの成果は合計27件の国際会議・国際論文誌で発表され(うち9件は最難関国際会議で採択)、国際的に高い評価を得たといえる。
|
研究成果の学術的意義や社会的意義 |
画像やテキストの認識・生成を行う人工知能は近年驚異的な進歩を遂げ、社会的にも大きなインパクトを与えている。その原動力となったのは、大量のデータから学習した大規模言語モデルであるが、本研究では知識グラフという異なる形式の知識基盤の獲得方法とその有効性を示した点に独創性がある。知識グラフは、大規模言語モデルと併用することで人工知能の性能をさらに向上できる可能性があると同時に、解釈性や可制御性に優れた表現であるため、今後の社会でより信頼性の高い人工知能技術を実装・展開するための重要なアプローチになると考えられる。
|