研究概要 |
H20年度の研究においては、画像に対して確率的トピックモデルを適用するための特徴抽出手法の比較検討、pLSA(probabilistic latent semantic analysis),LDA(latent Dirichlet allocation)などの基本的なトピックモデルの画像への適用による種々の応用(画像内容に基づく画像識別、文書画像の領域分割)を実施すると共に、階層構造の利用による文書画像詳細分割手法に関する研究を実施した。さらに今後の研究の基礎となるDPM(Dirichlet Process Mixture),HDP(Hierarchical Dirichlet Process)モデルおける変分法、マルコフ連鎖モンテカルロ法(MCMC)に基づく推論アルゴリズムの実装に着手した。 文書に対して確率的トピックモデルを適用する際には単語頻度に着目し語順を問わないbag of words型表現が用いられるが、これを画像に対して適用するためには画像特徴抽出に基づいて、文書における単語に相当するvisual wordを抽出する必要がある。本研究においては、visual word抽出のための画像特徴抽出手法としてHaar wavelet, SIFT,勾配ヒストグラムを実装し、画像のスケール変換や(微小)回転に対する不変性の観点から比較を行った。画像内容識別の性能を用いて比較を行い、SIFTを用いる画像表現方式とpLSAに基づくモデル化方式が良好な識別性質を有することを明らかにした。さらに本手法を文書画像の領域分割問題に適用し、文字認識手法を必要とせず文書内容に基づく領域分割が可能であることを示した。文書領域分割への応用については文書領域を再帰分割した階層型のモデルを考え、領域分割の詳細度を向上させるための手法及びEMアルゴリズムに基づく推論方式を示した
|