研究課題/領域番号 |
15H01721
|
研究機関 | 九州大学 |
研究代表者 |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
|
研究分担者 |
相澤 彰子 国立情報学研究所, 大学共同利用機関等の部局等, 教授 (90222447)
難波 英嗣 広島市立大学, 情報科学研究科, 准教授 (50345378)
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 情報検索 / 学術論文検索支援 / 重要語句 / トピック分析 / 情報要求 / 検索行動分析 |
研究実績の概要 |
〔情報要求に関連する論文の絞り込み手法の開発について〕トピック分析の結果において非限定的な検索語が含まれるトピックが情報要求に関連するか否かを検索者自身によって判断し,情報要求に関連するトピックを含む論文(抄録)に絞り込むという手法を開発し,NTCIR-1,2のテストコレクションを用いた実験により,前年度開発した手法より絞り込み性能が高いことを確認した.また,現実の論文検索データベースを利用した実験を行うための準備としてCiNii(日本語論文用)およびScopus(英語論文用)からキーワード検索により抄録を収集するシステムを開発した.さらに,前年度に行ったレファレンス事例の分析結果に基づき,検索語を通常使われる標準的な用語や上位語に変換するキーワード拡張の機能を実現した. 〔重要語句の収集と利用について〕学術論文のインタラクティブな検索において有用なキーワードやフレーズを抽出するための手法の検討およびデータの収集を行った.具体的には,CiNii,Pubmed,ArXivから書誌情報を収集し,フォーマットを統一化してデータベースを構築し,これを用いて,論文タイトルおよび抄録部分から専門用語を抽出し,関連する論文をランキングするシステムを構築した.また,論文の記述中から関連する文を関連度順にランキングする手法の検討に取り組んだ. 〔検索行動の分析〕研究者の検索行動の観察と,検索者に検索中に考えていることを発話してもらった発話の記録,および検索の前後でのインタビューにより,検索状況に応じた検索行動の分析を行った.データベースから電子ジャーナルへのリンクが一般的となった状況を反映し,論文タイトルを確認後,直接本文の数式を確認する検索者や,Google の画像検索で論文中の図のみを確認して情報要求に関連する論文を見つける検索者など従来と異なる行動が見られた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究代表者が所属する大学で契約している論文データベースが変更になる可能性があったため,H28年度は,英語論文の抄録を論文データベースから収集するシステムの開発を保留したものの,予算の一部を繰り越し,H29年度にシステム開発を行えた. また,信頼性の高い大量の学習データの作成が困難であったため,交付申請時の研究実施計画のうち,抄録中の各文の役割を推定する手法の改良は実施できなかったが,それ以外の項目については,一部方針を変更したものの順調に進展している.
|
今後の研究の推進方策 |
情報要求に関連する論文(抄録)の絞り込みに関しては,今年度開発した手法では検索者にトピックを解釈してもらう必要がある.トピックを解釈することは検索者にとっては負担となる.さらにトピック分析に不慣れな検索者の場合は判断が不正確になる恐れもある.今後は,検索語が含まれるトピックの解釈が容易なトピック分析のための統計モデルの開発,あるいはトピックの解釈が不要なトピック分析結果の利用法について検討を進める予定である. 重要語句の抽出とその利用に関しては,専門用語抽出部分のAPI化を進め,インタラクティブ検索におけるユーザ行動解析に適用するとともに,関連文ランキング手法についても引き続き検討を進める予定である. 検索行動の分析に関しては,今年度行った観察とインタビューに基づく検索行動の分析を多くの被験者に対して行うのは困難であるため,今回の分析結果を踏まえ,検索行動分析のためのアンケートを設計し,Web上でアンケートを実施することにより十分な数の被験者の確保を試みる.
|