研究概要 |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として,今年度は以下の研究課題に取り組んだ。 1.Webページからの製品性能表の抽出 従来人手で与えていた性能表抽出のためのキーワードを自動的に獲得する手法を開発した。まず,表を含むページのHTMLタグ情報ならびに文字列の形態的特徴に基づいてキーワード候補を抽出する。次に,ベイズの定理を用いてキーワードの重み付けを行う。抽出処理の再現率は95%,適合率は100%であった。 2.製品性能表の正規化 性能表は[機種名,属性,値]のリストの集合(表構造)に変換されるが,HTMLタグ情報を用いた属性の抽出およびベクトルの類似度計算に基づく属性のクラスタリングのためのプログラムを開発した。 3.製品選択支援のためのプロトタイプシステムの改良 ユーザの要求(「モバイル可能」など5種類)に合致したパソコン群をランキング出力するシステムの改良を行った。従来固定であった各属性の重みを適合性フィードバックやユーザの指定により変更可能とした。さらに,表や文章に加えて,レーダチャートによる表示など出力形式を多様化した。 4.製品画像データからの特徴抽出 画像データから背景領域を除去し,製品領域の色情報(黒,白,シルバー)による分類を試みた。単一色の背景はエッジ検出とラベリングで,複雑な背景はテンプレートマッチングとクラスタリングで除去するアルゴリズムを開発した。また,色分類にはC4.5を用いており,約80%の精度が得られた。
|