研究概要 |
本年度は主に3つの成果を上げることができた. これらの成果は,論文誌(1),国際会議(2)において発表を行った. 1.離散的な隠れ状態をもつ文書の確率的生成モデルにおいて、単語の出現分布がPower-lawの性質をもつモデルを提案した提案モデルは、Power-lawの性質が内在するデータにおいては,既存モデルであるLatent Dirichlet Allocation (LDa)よりも未知のデータに対する予測性能が大幅に高いことが実験的に示すことができた. 2.LDAにおける高速な決定論的逐次学習手法を提案した.本手法は,決定論的なオンライン学習アルゴリズムで,1度処理したデータは捨ててしまうので過去のデータを保持する必要がない.また,収束も早く,並列実行する必要もない手法である. 3.Succinct Data structureを利用した圧縮半構造データマイニングアルゴリズムを提案した.XMLを中心として近年,木構造型の半構造データが大量に増加している.このようなデータに対してFREQTと呼ばれる高速に頻出するパターンを抽出するアルゴリズムが提案されている.本研究では,木構造データを情報論的下限まで圧縮した状態で,FREQTアルゴリズムを適用することが可能なアルゴリズムを提案した.
|