研究概要 |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として,今年度は以下の研究課題に取り組んだ。 1.Webページから製品性能表ならびに画像データを抽出するプログラムの開発 パソコンに関する製品性能表および画像を再現率96%以上,適合率94%以上で抽出できた。さらに,画像の内容を隣接するテキストのキーワードを用いて分類するプログラムを開発した。分類精度はTF*IDF法で79%であった。 2.製品性能表からの特徴抽出と要約文生成アルゴリズムの開発 HTMLで記述されている複数のパソコン性能表を[機種名,機能項目,値]の3つ組からなるリスト(表構造)に変換し,それぞれのパソコンの相対的な特徴データを抽出し,これらを日本語文章として生成出力するシステムを開発した。 3.パソコンに関するユーザの要求や好みの調査と製品の機能項目との対応付け ユーザの要求を「グラフィックスに強い」や「モバイル可能」など5個の大項目に分類して,表構造の機能項目との対応づけを明らかにした。さらに,表構造の特徴データに得点を与え,ユーザの要求に合致したパソコン群をランキング出力するシステムを開発した。 4.パソコン以外の製品に対する特徴抽出法の有効性の評価 携帯電話およびデジタルカメラの性能表に対して同様の特徴抽出実験を行い,比較的小規模のキーワードと単位辞書の変更で移行可能なことが確認できた。
|