Project/Area Number |
22KJ1355
|
Project/Area Number (Other) |
22J21786 (2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2022) |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Ochanomizu University |
Principal Investigator |
黒田 彗莉 お茶の水女子大学, 人間文化創成科学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-03-08 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥2,500,000 (Direct Cost: ¥2,500,000)
Fiscal Year 2024: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2023: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 2022: ¥900,000 (Direct Cost: ¥900,000)
|
Keywords | 実世界理解 / 予測 / 言語生成 / 物理特性 / グラフ埋め込み / 変化点抽出 / 物理的関係の階層構造 |
Outline of Research at the Start |
ヒトの予測機能は視覚から取り入れた情報から物体の種類や物理特性といった詳細な情報を捉えた後に予測を行うが、従来の予測を対象にした研究の多くは動画像のピクセルの遷移から予測画像を生成している。よりヒトらしい予測機能をもつ機械学習モデルの構築のために、実世界に存在する物体や事象についての物理的因果特性を捉えた予測モデルを構築する。またヒトは実世界で起きている事象を視覚から取り入れ、その状況を言語に置き換えて理解をする。ヒトの言語を用いた実世界理解についての理解を深めるために、構築した予測モデルを用いて予測した内容を実画像だけでなく言語でも説明可能な手法の開発を目指す。
|
Outline of Annual Research Achievements |
ヒトは、環境を見て物体の動きを捉え、予測し、その内容を他人に伝えることができる。しかし、物体の動きや環境の予測を扱った先行研究は、画像(計算機における「視覚情報」)のピクセルの変化を予測とみなしてきた。また、画像の状況を説明できる大規模言語モデルの GPT-4Vも、あくまで画像特徴量(色の数値データ)と単語の類似度から文章を生成するにとどまっている。つまり、ヒトのように物体の動きの意味を理解したうえで予測や言語を生成しているわけではない。そこで本研究では、環境内の物体の種類や動きを理解し、動きが大きく変わるタイミングを予測・説明できる仕組みを開発した。 実験1として、物体の衝突がいつ起こるかを、視覚的な状態(画像)と物理的な状態(速度など)の変化から判断する変化点予測モデルを構築した。その結果、物体の衝突のタイミングを高い精度で判断することに成功した。 次に実験2として、変化点の状況を理解するために、物体の動きを表したグラフ構造から言語を生成した。具体的には、グラフ構造とそのときの状況を表した文章のペアデータを作成し、事前学習によって言語モデルを構築した。その言語モデルを用い、変化点を予測したグラフ構造から文章を生成した。生成された文章は、高い精度で環境を説明できた。 また、3年目で実施予定の、物体の動きの常識を含んだ文章を生成するための仕組みの開発も行った。簡易実験では、モデルから生成した文章に対して、物体の重さや床の摩擦などの環境における常識で補完した文章を再生成できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
当初の計画通り、物体の動きの特徴的なタイミング(衝突)を予測する深層学習モデルの開発を行った。予測内容を解釈可能にするために、言語モデルを使用して衝突の状況を説明する文章を生成した。これらの実装は2年目前半に終了し、後半は変化点予測モデルの精度向上のためのモデルや仕組みの変更に取り組んだ。同時に、10月から半年間、ドイツで研究留学を行い、特別研究員の研究と並行して最先端の自然言語処理技術を学んだ。滞在期間中は現地の研究に加えて、3年目に予定されている予測内容に関する文章生成にも取り組んだ。 今年度の成果については、国際学会に2報(PRML2023、DS2023)、国内学会に1報を発表し、現在、論文誌への投稿を進めている。
|
Strategy for Future Research Activity |
3年目前半では、開発した変化点抽出モデルを用いて、より実世界に近いデータセットをでの実験を行う。さらに3年目の計画であるヒトのような物理的な常識をもった文章を再生成する仕組みの実験と検証を行う。 後半では、従来の直観に即した予測だけでなく、直観に反した(反実仮想、仮説推論)動きも予測できるモデルの開発を目指す。
|