学術論文検索におけるユーザの視点に基づいたブーリアン型検索クエリ作成支援の研究
Project/Area Number |
19K20629
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 90020:Library and information science, humanistic and social informatics-related
|
Research Institution | Chuo University (2021-2022) Kyushu University (2019-2020) |
Principal Investigator |
福田 悟志 中央大学, 理工学部, 助教 (10817555)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 情報検索 / 学術論文検索 / 高再現率 / 学術論文 / ブーリアン検索 / 網羅性 / クエリ推薦 / クエリ拡張 / クエリマイニング |
Outline of Research at the Start |
学術論文検索では,情報要求に関連する論文を網羅的に収集することが重要である.多くの検索エンジンにおいて,ユーザはブーリアン型検索クエリを入力して論文を検索する.しかし,最初に作成されたクエリで関連論文を満足に収集できることは稀であり,検索結果を検証して新たなクエリを作成・修正するという負荷の高い作業が繰り返し行わなければならない.本研究では,ユーザに対して,作成した検索クエリを効果的に洗練できるような支援を提供するためのシステム開発に向けた調査および技術開発を行う.
|
Outline of Annual Research Achievements |
本年度は,ユーザが考案したブーリアン型検索クエリに対して,検索条件ANDで結合する候補語を推薦するシステムを構築した.提案システムでは,検索クエリとANDで結合される語は,検索クエリと関連性が高く,さらにいずれの検索語と同義的あるいは類似的でないものが適切であるという仮定に基づき,トピックモデルおよび単語分散表現による単語分散表現を用いて推定を行った.まず,Latent Dirichlet Allocationを用いて,検索クエリと関連している可能性の高い語をランク付けする.次に,word2vecを用いて,いずれの検索語と同義的かつ類似的でない可能性の高い語をランク付けする.そして,これら2種類の結果を統合し,最もランクの高い語から順に候補語としてユーザに提示する. 実験では,NTCIR-1 ,-2データセットに収録されている15種類の検索課題に対して考案した検索クエリを用いて,システムが提示した上位5件の候補語を検証した.具体的には,検索クエリを用いたクエリ尤度モデルによるランキングを行い,ランキング結果の上位100, 200, 300, 400, 500件を検索結果として獲得する場合に対する再現率により,初期の検索クエリおよびシステムが出力した候補語に対してユーザが最も再現率が向上する選択を行った場合を比較し,検索性能の変化を検証した.なお,本実験では,候補語に対するユーザの操作は,上位5件の候補語から1つの語を選択および適切な語が出力されていなかったため選択しないことを仮定している.その結果,検索結果として獲得する論文数の各条件において,平均で4.44%の向上が期待できることが確認された.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
実験において,システムが出力した上位5件の候補語群に再現率が向上する語がどの程度含まれていたか検証を行い,再現率が向上する候補語が出力されなかった検索課題が6件存在していたことが明らかになった. そのため,検索性能の向上に対する更なる改善が必要であるといえる.
|
Strategy for Future Research Activity |
ユーザへの候補語の提示において,その語に対する追加情報も併せて表示するといった,適切な語の効果的な選択方法を検討する.また,ユーザによる検索クエリの作成において,ANDによる語の結合に加えて,検索条件ORによる検索語に対する同義語・類似語の結合や不適切な検索語の削除といった操作も必要である.そのため,上記の操作を含めた効果的なブーリアン型検索クエリの作成支援システムを開発していく.
|
Report
(4 results)
Research Products
(3 results)