研究実績の概要 |
本研究課題は, 機械翻訳を介さず目的言語のキャプションを生成する方法 (ゼロショットキャプション生成法) の開発に取り組む. ゼロショットテキスト生成の関連研究が発表されたことを受け, 本年度は開発していたモデルの見直しおよび実装を行なった. また, 新たに評価用データが公開されたため, 現在それらを用いて検証を行なっている. 開発したゼロショットキャプション生成法は, 近年活発に研究されている画像と言語を用いた事前学習モデル (vision and language pre-training models) と (多言語のテキストデータで学習された) 大規模言語モデル (large language models) を活用することで実現している.
現在, モデルの実装は完了しており, 検証を行なっている段階である. 当初の想定よりも時間を要していることから, 検証が完了しておらず, 現状の実験においては, 開発したゼロショットキャプション生成法は十分な性能を得られていない. まだ分析段階ではあるが, これは大規模言語モデルが当初期待していた通りの振る舞いをしていないことが原因だと思われる. これを踏まえて, 来年度は, 大規模言語モデルの振る舞いを考慮し, (教師情報ではない) 補助情報を有効活用することでゼロショットキャプション生成を実現する. 応用タスクの選定は完了しているため, ベンチマークデータにおいて, 開発した方法の有効性が確認でき次第, 応用タスクでの検証に取り組む. 他の言語生成タスクと同様に, キャプション生成においても, ハルシネーション (hallucination) が問題となっていることが報告されている. この観点からも分析を行いたい.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本年度は, 関連研究が公表されたことを受け, モデルの見直しおよびその実装を行なった. 実装はおおむね完了したものの, 検証が完了していないため, 遅れているとした.
|