• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

競合学習による高速高精度な非負値行列因子分解法の確立

Research Project

Project/Area Number 26330259
Research InstitutionHokkaido Information University

Principal Investigator

内山 俊郎  北海道情報大学, 経営情報学部, 教授 (80708644)

Project Period (FY) 2014-04-01 – 2017-03-31
Keywords競合学習 / 非負値行列因子分解 / トピックモデル / PLSA
Outline of Annual Research Achievements

本研究の目的は、競合学習という確率的探索手法を用い、従来研究と比較し高速・高精度な分解手法を確立することである。27年度は、「一般化KLダイバージェンス」を目的関数とする非負値行列因子分解の高精度化と応用面での検討を進めた。第1の成果は、電子情報通信学会の研究会(3研究会共催、PRMU2015-83)で「非負値行列因子分解の高精度化とPLSAへの応用」と題して発表したことである。この報告では、非負値行列因子分解がトピックモデルであるPLSAと目的関数を同じくすることを利用し、交互にアルゴリズムを適用するなどして高精度化を図る検討と、大規模データの解析手法として利用されているトピックモデルの高精度なパラメータ推定への応用の検討について示した。従来研究では、交互に適用することで高精度化が図れるとの論文があったが、追試を行い、そのような効果はないこと、初期値の設定方法として、従来検討とは異なるより優れた方法を示したことなどが重要な成果であるといえる。第2の成果は、北海道情報大学平成27年度の紀要27-2において「Information theoretic document clustering using skew divergence」と題する論文として掲載したことである。この論文では、非負値行列因子分解の初期値を得るための情報理論的クラスタリングを競合学習で行い、その性能評価を行ったものである。従来の別基準に基づくクラスタリングと比較して外部基準における評価が高いこと、それが情報理論的クラスタリングの目的関数を最適化する意味で優れていることに起因することなどを示した。第3の成果は、関連技術も含めた著書「わかりやすいデータ解析入門」を執筆したことである。非負値行列因子分解についても記述している。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

引き続き高精度化の検討を行い、従来研究の追試などにより、不明確な部分(非負値行列因子分解のアルゴリズムとPLSAのEMアルゴリズムを交互に適用することの効果)を明らかにしたこと、および一連の検討を通して、情報理論的クラスタリングにより一般化KLダイバージェンスを目的関数とする時の非負値行列因子分解の初期値を得ることが、高精度化に寄与することを確認できたこと、などから、達成度はおおむね当初の予定通りとした。

Strategy for Future Research Activity

一般化KLダイバージェンスを目的関数とする場合の非負値行列因子分解が、トピックモデルのパラメータ推定にも使えることがわかり、この目的関数を用いる場合の高精度化が、さまざまな応用場面につながることから、トピックモデルのパラメータの高精度な推定を非負値行列因子分解で検討してきた技術で実現する研究を完成させ、論文として投稿する予定である。また、引き続き非負値行列因子分解を高精度化するアルゴリズム自体の検討も継続する考えである。これらに加えて、実際のデータへの応用や他の目的関数を使う場合についても検討する予定である。

Causes of Carryover

当初考えていた国際会議などの対外発表の数が少なくなったため、旅費に差額が生じた。また、購入したワークステーションの額が予定より安くなったことも差額が生じた原因である。

Expenditure Plan for Carryover Budget

国際会議および論文投稿を積極的に行い、データ収集やデータ解析に必要な機材を計画に基づいて用意して研究を推進し、当初の計画に沿った支出額になるようにつとめる。

Research Products

(4 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results,  Acknowledgement Compliant: 1 results) Presentation (2 results) Book (1 results)

  • [Journal Article] Information theoretic document clustering using skew divergence2016

    • Author(s)
      Toshio Uchiyama
    • Journal Title

      北海道情報大学紀要

      Volume: 27-2 Pages: 19-25

    • Peer Reviewed / Open Access / Acknowledgement Compliant
  • [Presentation] k-means++法の有効性に関する検討2016

    • Author(s)
      大石啓太郎、中島潤、内山俊郎
    • Organizer
      北海道複雑系工学研究会
    • Place of Presentation
      小樽商科大学札幌サテライト
    • Year and Date
      2016-03-05 – 2016-03-05
  • [Presentation] 非負値行列因子分解の高精度化とPLSAへの応用2015

    • Author(s)
      内山俊郎
    • Organizer
      電子情報通信学会
    • Place of Presentation
      愛媛大学
    • Year and Date
      2015-09-14 – 2015-09-15
  • [Book] わかりやすいデータ解析入門2016

    • Author(s)
      内山俊郎
    • Total Pages
      248
    • Publisher
      ムイスリ出版

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi