2015 Fiscal Year Annual Research Report
A Study on Digital Library System for Experimental Information Extraction, Visualization and Recommendation
Project/Area Number |
15H02789
|
Research Institution | National Institute of Informatics |
Principal Investigator |
高須 淳宏 国立情報学研究所, コンテンツ科学研究系, 教授 (90216648)
|
Co-Investigator(Kenkyū-buntansha) |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 電子図書館 / トピックモデル |
Outline of Annual Research Achievements |
学術情報からの情報抽出については、CRFを用いた書誌情報の抽出法を考案した。CRFの学習には通常一定量のラベル付きデータが必要になる。学習データは人手で作成する必要があり、作成コストの低減が求められる。本研究では、能動学習および転移学習法について検討を行い、サンプリング戦略の提案と評価実験を行った。その結果、サンプリング戦略を工夫することで必要となる学習データを減らすことができることを示した。 学術情報の分析に関しては、トピックモデルの効率的な推定アルゴリズムについて検討を行った。LDAにおける隠れ変数について、通常は一様分布を用いて初期化するところを、同じ文書内の他の隠れ変数の値に依存したヒューリスティックな手法によって初期化する手法を提案した。また、各文書でのトピック確率分布を、タイムスタンプや緯度経度などの時空情報に依存させた場合でも、変分ベイズのように最適化による推定をおこなうのではなく、サンプリングによって近似の少ない推定を実現できることを示した。 使われているサンプリング手法は、ロジスティック正規分布によって定義された離散的な確率分布ならどのような分布でも適用可能であり、今回は時空情報に依存したトピック確率の推定という具体的な応用に適用した。この研究を実施することにより、変分ベイズのような近似の入る推定に訴えなくても、スライスサンプリングさえ駆使すれば、様々なメタデータをトピックモデルにおいて利用できることが分かった。 学術情報の推薦については、推薦精度の向上をはかるため、コンテキスト依存推薦法を考案した。多様なコンテキストを組み合わせることによって精度の向上を図れるが、一方で計算コストが大きくなる。本研究では、粒子群最適化技術を用いることでコンテキストの効率的な選択を実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
全体的にほぼ計画通りに進んでいるが、実体抽出法の研究では、当初予定より多くのデータ収集が必要になることがわかったため、繰越を申請し、H28年度に学術情報の収集と評価を行なった。
|
Strategy for Future Research Activity |
学術情報抽出については、引き続き、必要となる学習データの低減法に取り組む。また、本年は、書誌情報抽を行ったが、今後、他のタイプの情報抽出問題にも取り組む。 学術情報からのトピック抽出については、本年度に引き続き学習アルゴリズムの高速化に取り組み、大規模な学術情報の分析を可能とする。 情報推薦については、学術情報中に現れる様々なエンティティに関する情報推薦法に向けて、研究を展開する。
|
Research Products
(8 results)