2015 Fiscal Year Annual Research Report
ユーザーの視点に立った高度な学術論文検索支援に関する総合的研究
Project/Area Number |
15H01721
|
Research Institution | Kyushu University |
Principal Investigator |
冨浦 洋一 九州大学, システム情報科学研究院, 教授 (10217523)
|
Co-Investigator(Kenkyū-buntansha) |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
難波 英嗣 広島市立大学, 情報科学研究科, 准教授 (50345378)
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 情報検索 / 学術論文 / 検索支援 / トピック分析 / 情報要求 |
Outline of Annual Research Achievements |
(1) 検索者が入力した情報要求を端的に表す抄録(基準抄録)に基づいた,検索語で検索して得られた抄録をランキングする手法を検討した.ランキングのための各種尺度を比較した結果,検索結果の抄録集合をトピック分析して得られる各抄録の単語の潜在的な確率分布による基準抄録の発生確率を尺度として降順にランキングするのが最も良く,ランキング上位30%の中に,情報要求を満たす検索結果中の抄録の80%以上が含まれていることを実験的に確認した.また本手法を実際に利用するに当たっての課題について検討した. (2) 論文の抄録中の各文の役割を推定する手法を検討し,ニューラルネットワークの1つであるLSTM(Long Short-Term Memory)を生命科学分野(英語)の構造化抄録に適用して有効性を示した.しかし,この生命科学分野の構造化抄録で学習したLSTMを情報学分野の英語抄録(各文に人手で4つの役割を付与)に適用したところ,十分な推定性能は得られず,分野別の文の役割付き抄録コーパスが必要であることが分かった.これを受け,情報学分野の日本語論文1000編を対象に,文の役割を人手で付与し,コーパスを構築した. (3) 第一回NTCIRワークショップ情報検索タスクの検索課題,および,レファレンス協同データベース(NDL)の事例やYahoo! 知恵袋の記事で回答欄に学術論文データベースへのリンクがあるものを対象に,論文調査目的のレファレンス事例を分析し,求める論文を特定するのにどのような情報が効果的かという観点で,検索状況および検索手法を体系的に調査した.また,論文検索システムを利用する際に,利用者が検索結果のどの部分を見て全文の入手を判断するのか,抄録を見た場合にどのような役割をもつ文を利用しているのかを明らかにするための被験者実験を計画し,プレ実験を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)抄録の各文の役割を推定する手法の開発,(2)解釈容易性を担保したトピック分析手法の開発と利用法の検討,(3)求める論文を特定するのに効果的な情報という観点での検索状況の体系的な調査・分析,を研究期間前半の2年間で行う計画であった. このうち,(1),(3)については研究実績にも示したように予定通りの進捗状況である.一方(2)に関しては,予定を変更して,そのようなトピック分析手法も検討しつつ,並行して,トピック分析の結果のトピックの解釈を必要としない論文検索結果の絞込み手法を検討し,ある程度の成果を得た.
|
Strategy for Future Research Activity |
H27年度に引き続き,(1)抄録の各文の役割を推定する手法の開発,(2)キーワード検索により得られた論文の絞込み手法の開発,(3)求める論文を特定するのに効果的な情報という観点での検索状況の体系的な調査・分析,を行う. (1)に関しては,H27年度に構築したコーパスを用いて,文の役割を示す手がかり表現を同定するためのモデルの開発を行う.この際,品詞情報なども利用して,細かい分野の依存性がない手がかり表現の抽出を行う(工学,理学,医学といった大きな分野による依存性はある程度避けられないと考えている). (3)に関しては,H27年度に行った準備を基に研究を進める. (2)に関しては,基準抄録を入力できない場合への対処,ランキング上位ではない情報要求を満たす論文を取りこぼさないための工夫を行う.この中で,当初予定していた解釈容易性を担保したトピック分析手法が必要となると考えており,これについても検討を進める.
|