2015 Fiscal Year Research-status Report
タイニーデータマイニング:基底としての確率分布による大規模データの再構成
Project/Area Number |
26330256
|
Research Institution | Nagasaki University |
Principal Investigator |
正田 備也 長崎大学, 工学研究科, 准教授 (60413928)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | トピックモデル / 機械学習 / ベイズ推定 / データマイニング / テキストマイニング |
Outline of Annual Research Achievements |
今年度の研究成果は、2つの面を持つ。ひとつは応用面、もうひとつは手法そのものに関わる面である。特に後者は、本研究の応募時には考慮できなかった研究動向の変化に対応しようとする成果であり、当初の計画には無かったものである。第一の面は前年度の継続・発展であるが、第二の面に関しては、機械学習分野がトレンドの変化が激しい分野であるため、このような柔軟な対応が重要だと考える。
1.応用面:本研究では、大規模なデータ集合を低次元空間で表現しなおす手法としてトピックモデルに着目しているが、まず応用面では前年度からの継続として、都市部交通流の速度分布の分析を行った。前年度は、スピードが非負の連続データであることから、トピックモデルにおける多項分布をガンマ分布で置き換え、新しい確率モデルを提案した。今年度は、交通流の速度が、道路の場所(空間情報)や計測時間(時間情報)に依存することに着目し、昨年度のモデルを拡張して場所と時間のメタデータも利用できるモデルを提案した。これは、本研究を特徴付ける三つのDのうちのDiversityに対応する提案である。この成果はFDSE2015という国際学会ですでに発表された。
2.手法面:機械学習分野は本研究の応募当初とは大きく変わりつつある。深層学習がメイン・ストリームとなったためである。深層学習とは一見あまり関わりがなさそうなトピックモデルの位置づけも、変分事後分布推定との関係で変化してきている。そこでこの状況に対応するため、推定の並列化という当初の計画ではなく、推定方法そのものの再検討が必要と考え、深層学習に関して提案されたパラメータ推定手法をトピックモデルにも用いるという課題を新たに設定した。これは応募時には考慮されていなかった課題である。このような臨機応変の計画変更は重要と考える。この第2の面については進捗状況の理由の項で詳述する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度は、都市部における交通流速度のモデル化という、具体的なデータの分析に対するトピックモデルを提案することができた。研究計画の段階では、multifaceted SAGEを用いてデータのdiversityのモデル化をおこなうと記していたが、これは今年度の研究において、交通流の空間的メタデータ(道路の位置)と時間的メタデータ(計測時点)との利用というかたちで実現できた。また、当初の研究計画では、トピックモデルにより得られた結果の可視化についても言及していたが、これについては、FDSE2015での発表論文において、道路の位置と計測時点それぞれの相関を表す共分散行列の可視化により実現している。
しかし、機械学習分野における研究動向の変化を受け計画を一部変更することとした。当初は推定計算の並列化に取り組む予定だったが、深層学習が有力な手法として急速に浮上してきたため、推定計算自体を見直すという課題を立て直した。具体的には、深層学習に関して提案された変分AE(オートエンコーダ)という手法をLDAに適用した。この結果はICCSA 2016で発表予定である。
AEとは、観測データを一旦低次元の空間にエンコードし、それを逆に観測データにデコードするというかたちで教師無し学習を実現するニューラル・ネットワークであるが、変分AEはこの考え方を、ベイズ的確率モデルの変分事後分布近似に持ち込んだものである。変分AEは非常に適用範囲の広い推定手法と言える。観測データが与えられたときに隠れ変数の分布を求めるというエンコードの部分が、従来の変分法における変分事後分布のパラメータ推定に相当する。また、隠れ変数から観測データをデコードする部分は確率モデルそのものである。今回はこの枠組みに基づいてLDAの新たな事後分布推定法を提案した。これは、当初の計画にはなかったが、今年度得られた重要な進展である。
|
Strategy for Future Research Activity |
最終年度も、応用面での発展を目指すと同時に、深層学習の分野に現れた変分AEの考え方をトピックモデルに利用する方法の提案を進めたい。
1.応用面では、スペクトルの時系列データ分析に着手したい。特徴的な周期性を示す時系列データは、一旦フーリエ変換を行った後で分析されることが多い。そこで、タイムスタンプのついたパワースペクトル・データに対してトピックモデル的な確率モデルを提案することを目指したい。交通流速度に対してmultifaceted SAGEによりタイムスタンプ情報を利用できることが分かったので、この知見を活かす予定である。分析対象のデータはすでに入手しているので、モデルの提案・実装さえできれば数値実験を行える状態である。
2.すでにLDAについては、ICCSA2016で発表予定の研究において、エンコード部分でlogistic normalにより事後分布を近似する推定手法を提案している。通常のLDAのための変分ベイズでは、functional derivativeを求めればディリクレ分布が変分近似事後分布として得られるが、今回は敢えてlogistic normalを変分近似事後分布として用いている。そして、変分AEの最大の特徴であるreparameterizationのテクニックを使って、標準正規分布からのサンプルを利用して事後分布パラメータの推定を実現している。今後は、ニ通りの研究発展の方向を考えている。(2-1)LDAを拡張したトピックモデルについて、変分AEによるできるだけ簡単な(つまり複雑なニューラルネットワークを使わない)推定手法を提案すること。(2-2)エンコード部分でMLP(多層パーセプトロン)などある程度複雑なニューラル・ネットワークを使うことで、トピックモデルの推定について何か新たな知見が得られるかを探ること。
|
Research Products
(4 results)