2016 Fiscal Year Annual Research Report
A Study on Digital Library System for Experimental Information Extraction, Visualization and Recommendation
Project/Area Number |
15H02789
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
Co-Investigator(Kenkyū-buntansha) |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 電子図書館 / トピックモデル / 情報推薦 |
Outline of Annual Research Achievements |
学術情報からの情報抽出については、平成27年度に引き続きCRFを用いた情報抽出の研究に取り組んだ。平成28年度は、学術情報抽出用CRFのための辞書の整備、CRFの学習における辞書情報の活用法、学習したCRFの精度評価を行なった。その結果、辞書の効果を確認するととともに、抽出する情報の種類によって効果が異なることを確認した。また、抽出した情報の可視化システムを試作した。このシステムは、抽出した学術情報とWikipedia等のインターネット上の学術情報をリンクし、補足情報を提示することで、研究者や学生の学術情報活用を支援する。また、学術情報の特徴を文字列レベルで表現するために、特徴的な部分文字列を効率良く抽出するためのアルゴリズムの検討を行なった。日本語の頻出部分文字列を抽出するためのwavelet tree索引を提案し、抽出処理速度の高速化を図った。 トピックモデルを利用した情報抽出に関しては、大規模データに対応したパラメータ推定法の研究を進めた。変分ベイズ推定における変分下界をKingmaらによって提案されたreparameterization trickを用いて近似し、勾配降下法によって推定をおこなう方法を提案した。このアルゴリズムを用いて学術文書のトピック分析を行なったところ、分析精度を示す指標の一つであるPerplexityの向上を確認した。 学術情報推薦については、学術文献の著者の推薦法について研究を進めた。まず、論文の引用ネットワークおよび論文コンテンツの類似度に基づいて論文著者のネットワークを構築した。次に、このネットワーク構造を分析し、著者の特徴ベクトルを計算し、このベクトルに基づいて影響力の強い研究者を抽出した。評価実験を行い、impactの高い研究者を抽出できることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
学術情報抽出については、学術文献から各種情報を抽出するためのモデルおよびその学習法の提案に至っており、おおむね計画通りに研究が進んでいる。また、学術情報分析については潜在確率モデルに基づいた分析モデルのパラメタ推定アルゴリズムの研究が順調に進んでいる。学術情報可視化の研究についてはプロトタイプシステムを試作しており、概ね順調にすすんでいる。情報推薦については、論文および著者の推薦法を考案しており、順調に進んでいる。全体として、概ね順調に研究が進んでいると考えている。
|
Strategy for Future Research Activity |
最終年度となる平成29年度は、これまで考案してきた技術を統合し、学術情報の分析・可視化・推薦プロトタイプシステムにとりまとめる。また、評価実験を行うことでその有効性を評価することを計画している。
|
Research Products
(9 results)