• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

統計学的ライムを利用した情報ナビゲーション

Research Project

Project/Area Number 22700150
Research InstitutionNagasaki University

Principal Investigator

正田 備也  長崎大学, 工学部, 助教 (60413928)

Keywords知能情報学 / データマイニング / 確率モデル / ベイズ理論 / トピックモデル / 並列化
Research Abstract

本年度は、MEDLINEやDBLPの書誌情報を入力データとし、複数の単語が統計的に有意な頻度で共起する現象を、LDA(潜在的ディリクレ配分法)を拡張したベイズ的確率モデルを用いて検出し、書誌フィールド分割という具体的な問題の解決を目指した。書誌フィールドとは、著者名、論文タイトル、雑誌名、発表年などであり、それぞれのフィールドでどのような単語が出現しやすいか、どのような単語群が共起しやすいかが異なる。この違いを、LDAを拡張した確率モデルを用いて統計的にマイニングした。この確率モデルでは、書誌フィールドの並び順を、一般化マロウズ・モデルを用いてモデル化することで、多数の書誌データにまたがる様々な単語の「外的な」共起関係、つまり、個別の書誌データ内部に現れる意味的な共起関係に限定されない「ライム」的共起関係を抽出しようとしている。これにより、どこが著者名でどこがタイトルかなど、未だ各フィールドに分割されていない生の書誌データを、教師無し学習によって各フィールドへと分割するという、極めて具体的な応用課題に一定の解決を与えることに成功した。この課題は、従来、隠れマルコフモデルを用いて解かれることが多かった。しかし本研究は、全く新しいアイディアに基づく解法を与えた点で意義がある。また、LDA、HDPなどのトピックモデルは、パープレキシティや対数尤度など、理論的な尺度で有効性を評価されて終わることも多かったが、本研究では、書誌フィールド分割という、具体的な応用課題上でトピックモデルを定量的に評価した点でも意義がある。

  • Research Products

    (2 results)

All 2011 2010

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

  • [Journal Article] Unsupervised Segmentation of Bibliographic Elements with Latent Permutations2011

    • Author(s)
      正田備也
    • Journal Title

      IJOCI : International Journal of Organizational and Collective Intelligence

      Volume: 2

    • Peer Reviewed
  • [Presentation] Unsupervised Segmentation of Bibliographic Elements with Latent Permutations2010

    • Author(s)
      正田備也、柴田裕一郎、小栗清
    • Organizer
      International Symposium on Web Intelligent Systems & Services
    • Place of Presentation
      香港
    • Year and Date
      2010-12-12

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi