• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

統計学的ライムを利用した情報ナビゲーション

Research Project

Project/Area Number 22700150
Research InstitutionNagasaki University

Principal Investigator

正田 備也  長崎大学, 工学研究科, 准教授 (60413928)

Keywords知能情報学 / データマイニング / 確率モデル / ベイズ理論 / トピックモデル / 並列化
Research Abstract

昨年度は、当初の想定に比べて現実的な利用価値のあるアプリケーションを見出し、その結果、次の課題に取り組むことができた。つまり、(1)MEDLINEやDBLPの書誌情報という有用なデータを入力とし、(2)複数の単語が統計学的に有意な頻度で出現する現象をLDA(潜在的ディリクレ配分法)の拡張として提案したベイズ的確率モデルを用いて検出することで、(3)書誌フィールド分割という具体的な問題の解法を提案した。また、例えば同じ医学関係でも多様な分野の書誌情報をまとめて分析することで、どのような分野であれタイトルの先頭/末尾に現れやすい単語など、意味内容に無関係だが統計学的に有意な頻度で出現する単語を抽出したという意味で、「統計学的ライム」という本研究のメインテーマに即してもいた。
しかし、昨年度提案した上記手法は、教師無しunsupervisedの手法であり、よって分割の精度が80%強と満足のいくものではなかった。そこで今年度は、この教師無しの手法を、半教師付きsemi-supervisedの手法へと改変することで、さらなる精度向上を目指すことを計画していた。その結果、実際に分割精度を90%以上にすることができた。その成果を記した論文は、DL(デジタル・ライブラリ)関連の国際会議の中ではアジア地域でトップクラスであるICADL2012に受理された。ICADLでは、プレゼンテーションについても当日その場で座長から高評価をいただき、質問も多く出て、聴衆の関心の高さを実感できた。
2年間の研究全体を総括すれば、次のように言える。単語トークン列を、まとまりのある部分列(本研究の場合は、著者名・論文タイトル・雑誌名など、同じ書誌フィールドを構成するトークンの部分列)へと分割する問題に、LDAのようなトピックモデルを利用することは、従来あまり検討されてこなかった。本研究はここに着目し、トピックモデルの新たな活用法の提案として、意義ある成果が出せたと考える。また、トピックモデルは元々教師無し学習で、これを教師付き学習へと改変することは、様々試みられているものの、研究数自体はまだ多くない。その点でも、個性的な成果が出せたと考える。

  • Research Products

    (4 results)

All 2011 Other

All Presentation (3 results) Remarks (1 results)

  • [Presentation] Semi-supervised Bibliographic Element Segmentation with Latent Permutations2011

    • Author(s)
      正田備也、高須淳宏、柴田裕一郎、小栗清
    • Organizer
      International Conference on Asia-Pacific Digital Libraries (ICADL 2011)
    • Place of Presentation
      北京
    • Year and Date
      2011-10-25
  • [Presentation] Documents as a Bag of Maximal Substrings : An Unsupervised Feature Extraction for Document Clustering2011

    • Author(s)
      正田備也、柴田裕一郎、小栗清
    • Organizer
      13th International Conference on Enterprise Information Systems
    • Place of Presentation
      北京
    • Year and Date
      2011-06-10
  • [Presentation] Steering Time-Dependent Estimation of Posteriors with Hyperparameter Indexing in Bayesian Topic Models2011

    • Author(s)
      正田備也、高須淳宏、柴田裕一郎、小栗清
    • Organizer
      15th Pacific-Asia Conference on Knowledge Discovery and Data Mining
    • Place of Presentation
      深〓
    • Year and Date
      2011-05-27
  • [Remarks]

    • URL

      http://diversity-mining-lab.wikispaces.com/

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi