研究概要 |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として研究を行った結果,以下の成果が得られた。 1.Webページからの製品性能表の自動抽出 TSVM(Transductive Support Vector Machines)を用いて,HTML文書から製品性能表を自動抽出するプログラムを開発した。素性は,<TABLE>等でタグ付けされた領域から抽出し,tf・idf等で重み付けされたキーワードである。実験により,少量の訓練セットで高い表領域抽出率(F値で98%)が得られることを確認した。 2.製品性能表からの特徴抽出と製品選択支援システムの構築 性能表は[機種名,属性,値]のリストの集合(表構造)に変換され,集合中の標準値(平均値,最頻値)との比較により各属性値がスコア付けされる。ユーザの要求(「モバイルPC」,「グラフィックスに強い」等)」に応じて各属性を重み付けし,要求に合致するパソコン群をランキング出力するシステムを開発した。重みは適合性フィードバックやユーザの指定により変更可能である。検索結果は表だけでなく,日本語文章やレーダチャート等多様な形式で出力される。 3.画像データの分類と特徴抽出 Webページから画像を抽出し,その内容を隣接する文章のキーワードを用いて分類するプログラムを開発した。分類精度はtf・idfによる重み付けで79%である。さらに,製品画像の背景領域を除去し,C4.5を用いて製品領域の色情報(黒,白,シルバー)による分頬を行った。精度は約80%である。
|