Project/Area Number |
21K17811
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Chiba Institute of Technology |
Principal Investigator |
重藤 優太郎 千葉工業大学, 人工知能・ソフトウェア技術研究センター, 主任研究員 (50803392)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 自然言語処理 / コンピュータビジョン / キャプション生成 / ゼロショット学習 |
Outline of Research at the Start |
本研究では, 画像や動画が与えられたときに, その内容を説明する文 (キャプション) を出力するキャプション生成タスクに取り組む. キャプション生成の社会応用は多岐にわたり, 社会的ニーズは言語を問わず高い. キャプション生成を実装するためには, 通常, 対象言語の教師データが必要とされるが, その構築は高価であり大きな障害となっている. 本研究では, 対象言語の教師データを使うことなく, キャプション生成の実装を可能にするゼロショットキャプション生成法を開発する. これによって, キャプション生成を容易に (=教師データを構築するために高額な費用を支払うことなく) 実装できるようにする.
|
Outline of Annual Research Achievements |
本研究課題は, 機械翻訳を介さず目的言語のキャプションを生成する方法 (ゼロショットキャプション生成法) の開発に取り組む. ゼロショットテキスト生成の関連研究が発表されたことを受け, 本年度は開発していたモデルの見直しおよび実装を行なった. また, 新たに評価用データが公開されたため, 現在それらを用いて検証を行なっている. 開発したゼロショットキャプション生成法は, 近年活発に研究されている画像と言語を用いた事前学習モデル (vision and language pre-training models) と (多言語のテキストデータで学習された) 大規模言語モデル (large language models) を活用することで実現している.
現在, モデルの実装は完了しており, 検証を行なっている段階である. 当初の想定よりも時間を要していることから, 検証が完了しておらず, 現状の実験においては, 開発したゼロショットキャプション生成法は十分な性能を得られていない. まだ分析段階ではあるが, これは大規模言語モデルが当初期待していた通りの振る舞いをしていないことが原因だと思われる. これを踏まえて, 来年度は, 大規模言語モデルの振る舞いを考慮し, (教師情報ではない) 補助情報を有効活用することでゼロショットキャプション生成を実現する. 応用タスクの選定は完了しているため, ベンチマークデータにおいて, 開発した方法の有効性が確認でき次第, 応用タスクでの検証に取り組む. 他の言語生成タスクと同様に, キャプション生成においても, ハルシネーション (hallucination) が問題となっていることが報告されている. この観点からも分析を行いたい.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
本年度は, 関連研究が公表されたことを受け, モデルの見直しおよびその実装を行なった. 実装はおおむね完了したものの, 検証が完了していないため, 遅れているとした.
|
Strategy for Future Research Activity |
モデルの実装はおおむね完了しているため, 来年度は評価用データを用いて検証を行う. また, 当初の計画通り未知ドメインでの利用などの社会実装を想定し, 応用タスクでのキャプション生成に取り組む.
|