研究課題/領域番号 |
23K11342
|
研究機関 | 京都産業大学 |
研究代表者 |
宮森 恒 京都産業大学, 情報理工学部, 教授 (90287988)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
キーワード | 統計データ検索 / 大規模言語モデル / 文書補強 / クエリ拡張 / 表データ / 階層構造 / 表現学習 / 情報検索 |
研究実績の概要 |
言説に関連した統計データの検索については,大規模言語モデルによる文書補強とリランキングによる統計データのアドホック検索手法を提案し検証を進めた.具体的には,統計データの内容説明を大規模言語モデルで生成しメタデータを補強した文書を作成し,大規模言語モデルを用いたクエリ拡張とリランキングを行う手法の性能を検証した.実験において,メタデータのみを文書としたBM25によるランキングと,リランキングを行う前後のランキング結果を比較したところ,クエリ拡張や文書補強によりランキング性能が低下すること,また,Pairwise Ranking Promptingによるリランキングはある程度ランキングを改善できることが確認された.一方,誤り分析の結果,実験で採用したデータセットの一部に適切な関連性スコアが付与されておらず,正解データの妥当性に不備がある可能性があることが判明した. 次に,統計データ内の関連箇所の抽出については,与えられたテキストに対して,それに関連する表中のセルを回答するタスクに取り組んだ.具体的には,表に含まれる階層的な情報を二次元座標木と呼ばれるツリーベースの構造で表現する従来手法が,必ずしも適切に構造を表現できない課題を改善した手法を提案し,性能を検証した.実験では,提案手法は,表が複雑な階層構造を有している際に特に従来手法と比較して良好な結果となることがわかった.また,日付に該当するセルは,セルタイプ分類タスクでは貢献度が大きいものの,表とテキストの関連付けタスクでは手掛かりとし有用でないことが確認できた. 最後に,関連箇所との整合性有無の判定については,データセット整備と実験に向けての基礎的な検討を進めた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
まず,言説に関連した統計データの検索については,当初の計画通り,言説からの適切なクエリ生成や、検索される統計データのデータ補強,リランキングを大規模言語モデルを活用した統計データ検索手法を提案し,その基本的な性能を確認しているため. 次に,統計データ内の関連箇所の抽出については,当初の計画通り,対象となる言説に関連する箇所を統計データから抽出する手法を提案し,その基本的な性能を確認しているため. 最後に,関連箇所との整合性有無の判定については,当初の計画通り,実験を実施するためのデータセット構築の検討作業を進めているため.
|
今後の研究の推進方策 |
まず,言説に関連した統計データの検索については,実験で採用したデータセットの一部の不備について状況を調査の上,適宜問題のある箇所を補強する作業を進め,その上で改めて提案手法を検証する必要がある. 次に,統計データ内の関連箇所の抽出については,誤り分析を進め,現在のモデルを改良するか新たなモデルを構築することで,より的確に関連箇所を取得し,整合性検証につなげられることを目指す. 最後に,関連箇所との整合性有無の判定については,実験を実施するためのデータセットを構築し,手法の性能分析や課題の明確化などについて検討を進める必要がある.
|
次年度使用額が生じた理由 |
予定していた国際会議で不採録となり,年度内での国際出張旅費が未使用となったこと,および,クラウドソーシングによる作業費が当初の見込みより少なく済んだことにより,残額が発生したため.追加実験の実施や研究成果発表等に伴う学会参加,論文投稿などに充てる予定である.
|