Procedural Text Generation from Instructional Videos
Project/Area Number |
22KJ1666
|
Project/Area Number (Other) |
21J20250 (2021-2022)
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund (2023) Single-year Grants (2021-2022) |
Section | 国内 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyoto University |
Principal Investigator |
西村 太一 京都大学, 情報学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2023-03-08 – 2024-03-31
|
Project Status |
Discontinued (Fiscal Year 2023)
|
Budget Amount *help |
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2023: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2022: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2021: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | 作業映像 / 手順書 / 実験動画 / マルチメディア / コンピュータビジョン / 自然言語処理 |
Outline of Research at the Start |
本研究では、エージェントと人間の共同作業のための基盤技術として、作業映像から手順書を生成する課題に取り組む。この課題は、これを達成する上で、モデルは (1) 作業映像中から重要なシーンを抽出し、(2) 抽出したシーンに対応する文を生成する必要がある。本研究課題では、(2)のみに焦点を当てたモデルの開発、(1), (2)を同時に学習する手法の提案を行う。料理ドメインにてこれらの検証を行い、提案手法が有用であることを示す。また、料理よりも文書化することの需要の高い生化学分野において実験映像を撮影し、映像から手順書を生成する手法を確立する。
|
Outline of Annual Research Achievements |
最終年度の半年間は、一人称視点の化学実験映像の解析を進めた。前年度の検証の結果、物体の見た目にほとんど差がないため、物体を識別することができないことが問題であるとわかった。これを解決するため、QRコードを物体に貼り付けて撮影した新たなデータセットを構築した。このデータセットをもとに、前年度開発したプロトコル生成手法を検証し、結果を評価し、これらの結果をまとめて論文にし、国際学会に投稿した。
|
Report
(3 results)
Research Products
(6 results)