| 研究課題/領域番号 |
23K11342
|
| 研究種目 |
基盤研究(C)
|
| 配分区分 | 基金 |
| 応募区分 | 一般 |
| 審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
| 研究機関 | 京都産業大学 |
研究代表者 |
宮森 恒 京都産業大学, 情報理工学部, 教授 (90287988)
|
| 研究期間 (年度) |
2023-04-01 – 2026-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2024年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2023年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
| キーワード | 統計データ検索 / 大規模言語モデル / 文書補強 / クエリ拡張 / 表データ / マルチホップ推論 / 含意関係認識 / 情報検索 / 階層構造 / 表現学習 / 事実確認 / 整合性検証 / 根拠 / 統計データ / 自然言語 |
| 研究開始時の研究の概要 |
本研究では、ネット上などに存在する事実確認(ファクトチェック)の対象となる言説に対して、政府統計などで公開される統計データとの整合性の有無を検証することにより、従来の自然言語処理だけでは得られない事実確認に有用な根拠を提供する研究を行う。本研究により、個人が接するさまざまな情報に対して、よりファクトチェックしやすい環境を整備することにつながり、偽情報などに対するメディアリテラシーの涵養に資することが期待される。
|
| 研究実績の概要 |
言説に関連した統計データの検索については,前年度に判明したデータセット中の正解データ不備の問題を解消し,大規模言語モデルによる文書補強とリランキングによる統計データのアドホック検索手法の性能検証を進めた.具体的には,元々のデータセットには,BM25等の従来のランキング手法による上位文書にのみ正解の関連性スコアが付与されていたが,LLMを用いた提案手法では,従来手法では取得できなかった文書を上位にランキングさせていたため,正解の関連性スコアが付与されていなかったことが不備の原因であった.クラウドソーシングを用いて不足分の正解関連性スコアを付与し,問題点を解消した.大規模言語モデルによる制約のもと,小規模なデータセットによるランキング性能の比較実験を行った結果,特に上位10 件の範囲では,提案手法は優れた性能を示しており,上位1位,上位3位においては最も優れたnDCG値を示すことを確認した. 次に,統計データ内の関連箇所の抽出については,視覚的なマルチホップ質問応答タスクに取り組んだ.具体的には,SlideVQAにおける従来手法の課題であった検索ステップ (回答根拠選択)の性能改善に焦点を当て,テキストのみに対するマルチホップ質問応答で高い性能を達成している Beam Retrieval をマルチモーダル情報に対応するよう拡張した手法 MMBR を提案した.実験により,提案手法は,検索ステップおよび質問応答全体の性能向上に寄与することを明らかにした. 最後に,関連箇所との整合性有無の判定については,言説テキスト,統計データの関連箇所,含意関係ラベルから構成される小規模なデータセットを作成し,既存のLLMによる含意関係認識の性能を検証した.その結果,「含意」「矛盾」 ラベルの言説に関しては高精度に分類できる一方,「中立」ラベルの言説は「含意」と誤判定される傾向が見られた.
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
まず,言説に関連した統計データの検索については,当初の計画通り,大規模言語モデルを用いた統計データのデータ補強,大規模言語モデルを用いたとととと統計データのリランキング手法を提案し,その基本的な性能を検証できているため. 次に,統計データ内の関連箇所の抽出については,当初の計画通り,関連箇所を抽出する際に必要な視覚的なマルチホップ推論による焦点を当てた手法を提案し,その基本的な性能を確認しているため. 最後に,関連箇所との整合性有無の判定については,当初の計画通り,基盤モデルを利用して含意関係認識の性能を分析しているため.
|
| 今後の研究の推進方策 |
まず,言説に関連した統計データの検索については,大規模言語モデルを用いた手法のため,検索結果を出力するまでの応答速度に課題がある.問題のある箇所を分析した上で改善を図る必要がある. 次に,統計データ内の関連箇所の抽出については,統計データを用いたデータセットをよより充実させ,より的確な関連箇所の抽出手法の開発と評価を実現し,整合性検証につなげられることを目指す. 最後に,関連箇所との整合性有無の判定については,データセットをさらに充実させ,手法の性能分析や課題の明確化などの検討を進める必要がある.
|