研究概要 |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として,今年度は以下の研究課題に取り組んだ。 1.Webページからの製品性能表の自動抽出 TSVM(Transductive Support Vector Machines)を用いて,HTML文書から製品性能表を自動抽出するプログラムを開発した。素性はT wrapperで抽出し,tf・idfで重み付けされたキーワードである。実験により,少量の訓練セットで高い表領域抽出結果(F値で99%)が得られることを確認した。 2.製品性能表の正規化 性能表は[機種名,属性,値]のリストの集合(表構造)に変換されるが,属性の表記はメーカにより異なる場合が多い。そこで,表構造に出現する語句を素性とするベクトルで各属性を表現し,ベクトル間類似度に基づく属性表記のクラスタリングを行った。正解率は70%であった。 3.製品の特徴データから要約文を生成するアルゴリズムの改良 正規化表構造から抽出された各製品の特徴が要約文として出力される。単文生成フレームの追加,文章の構造化と属性の関連付けなどを行うことにより,自然な文章が生成されるようにアルゴリズムを改良した。 4.レビューサイト情報を用いた製品選択支援のための知識獲得 ユーザの要求(「モバイルに最適」,「グラフィックスに強い」など)と製品属性の関連付けは人手で行っていたが,WWWのレビューサイトにおける分類結果から,要求に対する各属性の重みを自動的に獲得する手続きを開発した。実験の結果,本手法による属性の重み付けが有効であることが確認できた。
|