2023 Fiscal Year Research-status Report
Language explanations about real-world based on human predictive functions that capture the physical environment
Project/Area Number |
22KJ1355
|
Allocation Type | Multi-year Fund |
Research Institution | Ochanomizu University |
Principal Investigator |
黒田 彗莉 お茶の水女子大学, 人間文化創成科学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Keywords | 実世界理解 / 予測 / 言語生成 |
Outline of Annual Research Achievements |
ヒトは、環境を見て物体の動きを捉え、予測し、その内容を他人に伝えることができる。しかし、物体の動きや環境の予測を扱った先行研究は、画像(計算機における「視覚情報」)のピクセルの変化を予測とみなしてきた。また、画像の状況を説明できる大規模言語モデルの GPT-4Vも、あくまで画像特徴量(色の数値データ)と単語の類似度から文章を生成するにとどまっている。つまり、ヒトのように物体の動きの意味を理解したうえで予測や言語を生成しているわけではない。そこで本研究では、環境内の物体の種類や動きを理解し、動きが大きく変わるタイミングを予測・説明できる仕組みを開発した。 実験1として、物体の衝突がいつ起こるかを、視覚的な状態(画像)と物理的な状態(速度など)の変化から判断する変化点予測モデルを構築した。その結果、物体の衝突のタイミングを高い精度で判断することに成功した。 次に実験2として、変化点の状況を理解するために、物体の動きを表したグラフ構造から言語を生成した。具体的には、グラフ構造とそのときの状況を表した文章のペアデータを作成し、事前学習によって言語モデルを構築した。その言語モデルを用い、変化点を予測したグラフ構造から文章を生成した。生成された文章は、高い精度で環境を説明できた。 また、3年目で実施予定の、物体の動きの常識を含んだ文章を生成するための仕組みの開発も行った。簡易実験では、モデルから生成した文章に対して、物体の重さや床の摩擦などの環境における常識で補完した文章を再生成できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画通り、物体の動きの特徴的なタイミング(衝突)を予測する深層学習モデルの開発を行った。予測内容を解釈可能にするために、言語モデルを使用して衝突の状況を説明する文章を生成した。これらの実装は2年目前半に終了し、後半は変化点予測モデルの精度向上のためのモデルや仕組みの変更に取り組んだ。同時に、10月から半年間、ドイツで研究留学を行い、特別研究員の研究と並行して最先端の自然言語処理技術を学んだ。滞在期間中は現地の研究に加えて、3年目に予定されている予測内容に関する文章生成にも取り組んだ。 今年度の成果については、国際学会に2報(PRML2023、DS2023)、国内学会に1報を発表し、現在、論文誌への投稿を進めている。
|
Strategy for Future Research Activity |
3年目前半では、開発した変化点抽出モデルを用いて、より実世界に近いデータセットをでの実験を行う。さらに3年目の計画であるヒトのような物理的な常識をもった文章を再生成する仕組みの実験と検証を行う。 後半では、従来の直観に即した予測だけでなく、直観に反した(反実仮想、仮説推論)動きも予測できるモデルの開発を目指す。
|