研究課題/領域番号 |
26330259
|
研究機関 | 北海道情報大学 |
研究代表者 |
内山 俊郎 北海道情報大学, 経営情報学部, 教授 (80708644)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 競合学習 / 非負値行列因子分解 / トピックモデル / PLSA |
研究実績の概要 |
本研究の目的は、競合学習という確率的探索手法を用い、従来研究と比較し高速・高精度な分解手法を確立することである。27年度は、「一般化KLダイバージェンス」を目的関数とする非負値行列因子分解の高精度化と応用面での検討を進めた。第1の成果は、電子情報通信学会の研究会(3研究会共催、PRMU2015-83)で「非負値行列因子分解の高精度化とPLSAへの応用」と題して発表したことである。この報告では、非負値行列因子分解がトピックモデルであるPLSAと目的関数を同じくすることを利用し、交互にアルゴリズムを適用するなどして高精度化を図る検討と、大規模データの解析手法として利用されているトピックモデルの高精度なパラメータ推定への応用の検討について示した。従来研究では、交互に適用することで高精度化が図れるとの論文があったが、追試を行い、そのような効果はないこと、初期値の設定方法として、従来検討とは異なるより優れた方法を示したことなどが重要な成果であるといえる。第2の成果は、北海道情報大学平成27年度の紀要27-2において「Information theoretic document clustering using skew divergence」と題する論文として掲載したことである。この論文では、非負値行列因子分解の初期値を得るための情報理論的クラスタリングを競合学習で行い、その性能評価を行ったものである。従来の別基準に基づくクラスタリングと比較して外部基準における評価が高いこと、それが情報理論的クラスタリングの目的関数を最適化する意味で優れていることに起因することなどを示した。第3の成果は、関連技術も含めた著書「わかりやすいデータ解析入門」を執筆したことである。非負値行列因子分解についても記述している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
引き続き高精度化の検討を行い、従来研究の追試などにより、不明確な部分(非負値行列因子分解のアルゴリズムとPLSAのEMアルゴリズムを交互に適用することの効果)を明らかにしたこと、および一連の検討を通して、情報理論的クラスタリングにより一般化KLダイバージェンスを目的関数とする時の非負値行列因子分解の初期値を得ることが、高精度化に寄与することを確認できたこと、などから、達成度はおおむね当初の予定通りとした。
|
今後の研究の推進方策 |
一般化KLダイバージェンスを目的関数とする場合の非負値行列因子分解が、トピックモデルのパラメータ推定にも使えることがわかり、この目的関数を用いる場合の高精度化が、さまざまな応用場面につながることから、トピックモデルのパラメータの高精度な推定を非負値行列因子分解で検討してきた技術で実現する研究を完成させ、論文として投稿する予定である。また、引き続き非負値行列因子分解を高精度化するアルゴリズム自体の検討も継続する考えである。これらに加えて、実際のデータへの応用や他の目的関数を使う場合についても検討する予定である。
|
次年度使用額が生じた理由 |
当初考えていた国際会議などの対外発表の数が少なくなったため、旅費に差額が生じた。また、購入したワークステーションの額が予定より安くなったことも差額が生じた原因である。
|
次年度使用額の使用計画 |
国際会議および論文投稿を積極的に行い、データ収集やデータ解析に必要な機材を計画に基づいて用意して研究を推進し、当初の計画に沿った支出額になるようにつとめる。
|