研究課題/領域番号 |
19H04166
|
研究機関 | 東京大学 |
研究代表者 |
中山 英樹 東京大学, 大学院情報理工学系研究科, 准教授 (00643305)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / 画像認識 / マルチモーダル / 知識獲得 / 教師なし学習 |
研究実績の概要 |
自然言語には表層から推し量れないさまざまなレベルの曖昧性や隠れた文脈が存在し、我々人間は社会的に共有するさまざまな常識的知識を活用してこれを補いながら言語理解を行っている。このような「常識」あるいは「世界知識」をどのように獲得し、計算機へ実装するかが自然言語処理における最大の問題の一つであり、古くから議論が続いている。本研究では、画像・動画像等のマルチメディアに言語概念をグラウンディング(記号接地)させ、時空間的な共起関係を手掛かりにさまざまな概念間の関連性を推定し、グラフ構造を有するデータベース(知識グラフ)として獲得する新しいアプローチを提案する。本年度は、主に以下に示す二つの課題に取り組んだ。 まず、言語概念を画像へグラウンディングするために鍵となる、画像認識・特徴抽出手法の開発を行った。本研究で対象とする言語概念は幅が広く、曖昧性が高いため、明瞭な教師付きデータセットを前提とする一般的な学習法を適用することは困難である。このため、教師ラベルにノイズが多く含まれるデータや、ラベルなしデータを活用できる手法が特に必要である。この問題にフォーカスした複数の手法を開発し、ラベルノイズありの学習、半教師付き学習、さらに両者の複合的な問題設定において、それぞれ既存研究を上回る良好な画像認識精度を得た。 また、画像中の物体の意味的関連性・空間的関連性(visual relationship, VR)を教師なし学習に基づいて発見する手法を開発した。本手法は、外部の言語知識データベースを参照しながら、言語的妥当性・入力画像の復元可能性という二つの観点からVRの推定を行う。また、内部で画像と単語のマルチモーダル埋め込み表現を活用することで、外部DBに直接存在しない新しいVRの発見も可能となる。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は初年度にあたるが、当初の計画通りに、マルチモーダル単語表現を活用することで画像から単語概念間の関連性を発見する手法を開発し、論文投稿にまで至っている。本手法は、教師なし学習という当初計画よりも挑戦的な枠組みで実現されており、より大規模なデータを活用できる道筋が得られた点は期待以上の成果であったといえる。一方で、獲得された関連性に関する知識をグラフとしてまとめあげるには至っていないが、比較的容易に実装可能な部分であるため、総合的にみて順調に研究が進展していると判断する。
|
今後の研究の推進方策 |
本年度開発した単語概念の関連性発見手法を、より大規模なマルチメディアデータへ適用し、さまざまな関連性知識をマイニングする。また、得られた知識をグラフDB(知識グラフ)として統合し、その妥当性について主観評価を行う。同時に、自然言語処理におけるストーリー生成などのタスクをベンチマークとして、知識グラフの質を定量的に評価する方法論について調査・検討を進める。
|