研究課題/領域番号 |
21J20250
|
配分区分 | 補助金 |
研究機関 | 京都大学 |
研究代表者 |
西村 太一 京都大学, 情報学研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2021-04-28 – 2024-03-31
|
キーワード | マルチメディア / 手順書 / 作業映像 / コンピュータビジョン / 自然言語処理 |
研究実績の概要 |
本研究の目的は作業映像から手順書を生成することである。これを達成するために、(1) 映像中のイベントから正しい文を生成する手法の確立、 (2) 映像からイベントと文を同時学習する手法の提案, (3) 別ドメインへの適用を掲げて研究に取り組んでいる。このうち、(1)は昨年度に終えた。(2), (3)について集中的に今年度取り組んだ。
まず、(2)について述べる。(2)の類似課題として、コンピュータビジョンの領域ではDense video captioning (DVC)という課題がある。この課題と入出力は共通しているが、DVCでは映像中から重要なイベントを徹底的に検出するという特徴がある。しかし、我々の課題では、イベントを過不足なく抽出して文を生成したい。この課題の違いに目をつけ、DVCの出力から正しい組み合わせになるようにイベントを選ぶ手法を開発した。
(3)については、後輩の学生と共に、大阪医科薬科大学協力のもと撮影を始めた。撮影したデータセットを細かく分析し、BioVL2データセットと名付けた。このデータセットをもとに、応用課題として実験映像からプロトコルを生成する課題に取り組み、現時点の到達点について議論した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
(2)については、この着眼点に則った新しい手法をもとに、論文を投稿した。現在、国際ジャーナルであるACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)にて論文が査読中である。
(3)については、論文誌 自然言語処理に投稿し、論文が受理された。また、受理された論文は2022年度の優秀論文賞を受賞しており、国内で高く評価された。
|
今後の研究の推進方策 |
これらの結果を統合して博士論文を書く。また、BioVL2をより発展させたデータセットの構築に来年度は取り組んでいく。
|