非負値行列因子分解法は特徴抽出のための代表的な手法として普及している. 一般的に普及しているアルゴリズムは行列とモデルの要素値同士の2乗誤差関数を最小化することで導出され, これは正規ノイズを仮定しカルバック・ライブラーダイバージェンスの最小化問題を考えることと等価である. このアルゴリズムは簡易な更新則が導出できる一方で, データに含まれるノイズに対する頑健性を持たないという欠点があった. この問題を解決するため, 手法を頑健化するためのアプローチが種々提案されている. 代表的なものは, 行列の要素値とモデル値の間の距離尺度として一般化ダイバージェンスの一種であるbetaダイバージェンスやgammaダイバージェンスを直接用いる手法である. これに対し, 本研究では行列の要素値とモデル値の誤差を統計モデルとして表現し, 統計モデルの同定のために一般化ダイバージェンスを用いることで, 従来の頑健化された手法よりもノイズにたいして頑健な手法を提案することができた. 理論的な考察を行うことで, 提案した手法が再下降性と呼ばれる好ましい性質を持つことが明らかとなり, ある程度大きなノイズに対してもノイズ成分を無視して頑健な推定を行うことが可能であることが示された. また, 従来の要素値の差異を直接測る手法は再下降性を持たないことも明らかになったため, 統計モデルと一般化ダイバージェンスを組み合わせる提案法の方がより頑健な手法であることが示された. 上記のような事柄に対し数値的な検証も行い, 理論によって示された性質が正しいことを確認した.
|