研究課題/領域番号 |
19K20629
|
研究機関 | 九州大学 |
研究代表者 |
福田 悟志 九州大学, システム情報科学研究院, 助教 (10817555)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 情報検索 / 学術論文 / クエリ推薦 / クエリ拡張 |
研究実績の概要 |
ユーザの視点に基づいた効果的なブーリアン型検索クエリの作成支援システムを開発することを大きな目的とした本課題において,本年度は,クエリに追加する候補語を自動的に推定する手法の開発を行った.候補語を推定するための枠組みとして,ユーザが作成した初期クエリを用いてクエリ尤度モデルにより論文をランク付けし,上位100件をユーザに提示して適合・不適合の判定を行ってもらう.そしてその結果をフィードバックし,適合と判定された論文集合Rでの出現確率PRと不適合と判定された論文集合Nでの出現確率PNに基づいて,R中で出現する各単語をランク付けした.なお,PRとPNはそれぞれ,Weiらが提案した,LDA (Latent Dirichlet Allocation)を用いたクエリ尤度モデルにおけるP(w|D)を用いて算出した. 実験では,NTCIR-1テストコレクションをデータセットとして用い,初期クエリに追加する候補語の数を,スコア値が高い上位1件から5件と設定した.なお,各単語のスコア値を算出する際に計算するPRとPNは,データセット内の各検索課題に対して付与されている適合・不適合情報を利用して算出した.実験の結果,初期クエリによるランキング結果と比べて,スコア値が最も高い上位3件の候補語をクエリに追加することで,5.31%の累積再現率の改率を示した.またこの結果から,適合と判定された論文集合には,ランキング結果を改善する,すなわち,情報要求と関連するが初期クエリを作成した段階ではユーザが想定していなかった語が出現しているということが確認できたため,今後は,それらの語をORと結合するべきか,またはANDと結合するべきかという分類を行う手法を開発していく.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
候補語を検索条件ANDまたはORのいずれかに分類する手法まで着手できていないためである. また,候補語を視覚的提示にするためのシステムが完成しておらず,被験者を通したアンケート調査がまだ行えていない状態である.来年度の前期までにはシステムを構築させ,後期には被験者実験が行える環境を整備する予定である.
|
今後の研究の推進方策 |
まず,論文抄録集合からANDまたはORで結合する候補語を推定する手法の開発に取り組む.具体的には,LDAによるトピック分析結果を利用し,検索クエリあるいは適合と判定された論文を用いて,情報要求と関連のあるトピックを発見し,候補語を絞り込む.そして,word2vecを用いて,クエリ内の各単語と候補語の距離を見て,クエリ内のある語と距離が近ければOR,クエリ内のいずれの語とも距離が遠ければANDで結合するというように候補語を分類することを考案している. クエリ作成を支援するためのシステムでは,ユーザに候補語を提示する際に有用となる情報(例えばスコア値など)の精査や,ユーザが快適にシステムを利用できるためのインタフェースの開発を引き続き行う.
|
次年度使用額が生じた理由 |
被験者を通じた実験が行えず,被験者に支払う人件費・謝金が余ったため. 本年度は,被験者実験を行える環境を整備し,人件費・謝金に充てる.
|