研究概要 |
本年度はデータ圧縮法を利用して,文書間関係を解析する方法を検討した.この文書間関係解析法に基づいて,文書からトピックを自動的に抽出する方法を検討した.通常,自然言語処理の手法が,これまでのアプローチに利用されている.データ圧縮法を利用することにより,自然言語処理を行わない半面,文書の特徴と文書間の関係を正確に表現できる.モデル文書と実際の文書に適用し,実験を行って,提案手法の有効性を確認した.自動的トピック抽出において,提案手法を従来の代表的な手法である特異値分解と独立成分分析と比較して検証実験を行った.提案手法は従来法より正確にトピックを抽出することが,文書の特徴を正しく表現でき,文書分類に適していることが検証できた. 次に,本手法をマルティメディアの分類に適用し,自動的に画像を分類する方法を検証した.この手法では入力画像を量子化し,テキスト化したうえで,画像の圧縮率ベクトルに基づいて分類する.テキスト化のステップでは画像を長さがLの画素断片に分けてアルファベットで置き換える.分類のステップではテキスト化画像の圧縮率ベクトルの類似性を利用する.双方のステップは文字列の圧縮性に着目している.実画像を用いた実験によって,画像の数が少ない場合に背景が簡単と複雑の両方において精度が高い分類結果が得られ,画像の数が多い場合に分類精度が劣れるが,一部の種類の画像に対して高い精度で部類できることを確認した.
|