25年度にて開発した高速テンソル分解アルゴリズムを拡張し,非負性を制約とした行列分解である非負行列分解を解くストリーミングアルゴリズムを導出した.この手法に関してはソーシャルネットワークサービスの一種であるTwitterのデータを用いてその性能を評価した.結果,提案した枠組みを用いることで理論上は日本全体のTwitterの投稿を汎用PC1台でリアルタイム処理できる性能を持つことを示した.さらに,分解した因子行列に対して確率的解釈が可能であり,さらにべき則に従うことを発見した.この統計的性質をもとに,Twitter上のスパム(自動投稿や広告投稿など多くのユーザにとって興味のない投稿)を自動判別しフィルタリングできる機構も併せて開発した. 非負行列分解により,高次関係性の解析や隠れ変数モデルが,従来では解けなかった超大規模データに適用可能となった.開発した手法に関しては自然言語処理の応用にてその性能を評価し,実際に1500万個の文章からなるデータを汎用PC1台において数時間で処理可能であることを確認した.この性能は既存の研究を大きく凌駕するものであり,今後この提案技術を用いて,いままでは扱うことのできなかった,例えばスマートシティ構想など実世界に配備されたセンサ群とコンピュータ上の仮想空間を結びつける,いわゆるサイバーフィジカルシステムのような超大規模データに対しても利用することが可能となりうる.
|