2008 Fiscal Year Annual Research Report

圧縮空間を用いたマルチメディアデータマイニングとそのウェブマイニングへの応用

Research Project

Project/Area Number	19500076
Research Institution	The University of Electro-Communications
Principal Investigator	渡邊俊典 The University of Electro-Communications, 大学院・情報システム学研究科, 教授 (10242348)
Co-Investigator(Kenkyū-buntansha)	古賀久志電気通信大学, 大学院・情報システム学研究科, 准教授 (40361836) 張諾電気通信大学, 大学院・情報システム学研究科, 助教 (20436736) 横山貴紀電気通信大学, 大学院・情報システム学研究科, 助教 (10401621)
Keywords	データ圧縮 / トピック抽出 / 画像分類
Research Abstract	本年度はデータ圧縮法を利用して,文書間関係を解析する方法を検討した.この文書間関係解析法に基づいて,文書からトピックを自動的に抽出する方法を検討した.通常,自然言語処理の手法が,これまでのアプローチに利用されている.データ圧縮法を利用することにより,自然言語処理を行わない半面,文書の特徴と文書間の関係を正確に表現できる.モデル文書と実際の文書に適用し,実験を行って,提案手法の有効性を確認した.自動的トピック抽出において,提案手法を従来の代表的な手法である特異値分解と独立成分分析と比較して検証実験を行った.提案手法は従来法より正確にトピックを抽出することが,文書の特徴を正しく表現でき,文書分類に適していることが検証できた. 次に,本手法をマルティメディアの分類に適用し,自動的に画像を分類する方法を検証した.この手法では入力画像を量子化し,テキスト化したうえで,画像の圧縮率ベクトルに基づいて分類する.テキスト化のステップでは画像を長さがLの画素断片に分けてアルファベットで置き換える.分類のステップではテキスト化画像の圧縮率ベクトルの類似性を利用する.双方のステップは文字列の圧縮性に着目している.実画像を用いた実験によって,画像の数が少ない場合に背景が簡単と複雑の両方において精度が高い分類結果が得られ,画像の数が多い場合に分類精度が劣れるが,一部の種類の画像に対して高い精度で部類できることを確認した.

Research Products
(2 results)

All Presentation (2 results)

[Presentation] Document Relation Analysis Based on Compressibility Vector2009
- Author(s)
  張諾, 松崎大輔, 渡邊俊典, 古賀久志
- Organizer
  ICAART'O9
- Place of Presentation
  ポルトガル・ポルト
- Year and Date
  20090119-20090121
[Presentation] テキスト化を介した画像分類手法の提案2009
- Author(s)
  平井敦之, 張諾, 渡辺俊典, 古賀久志
- Organizer
  人工知能と知識処理研究会(AI)
- Place of Presentation
  関西学院大学東京丸の内キャンパス
- Year and Date
  2009-01-16