2002 Fiscal Year Annual Research Report
テキスト・表・画像の対応構造に基づくマルチメディアコンテンツの要約に関する研究
Project/Area Number |
13680452
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
遠藤 勉 九州工業大学, 情報工学部, 教授 (10112294)
|
Co-Investigator(Kenkyū-buntansha) |
嶋田 和孝 九州工業大学, 情報工学部, 助手 (50346863)
|
Keywords | マルチメディア文書 / WWW / 要約 / 情報統合 / 情報検索 / 情報抽出 / 感性情報 / 文書生成 |
Research Abstract |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として,今年度は以下の研究課題に取り組んだ。 1.Webページからの製品性能表の抽出 従来人手で与えていた性能表抽出のためのキーワードを自動的に獲得する手法を開発した。まず,表を含むページのHTMLタグ情報ならびに文字列の形態的特徴に基づいてキーワード候補を抽出する。次に,ベイズの定理を用いてキーワードの重み付けを行う。抽出処理の再現率は95%,適合率は100%であった。 2.製品性能表の正規化 性能表は[機種名,属性,値]のリストの集合(表構造)に変換されるが,HTMLタグ情報を用いた属性の抽出およびベクトルの類似度計算に基づく属性のクラスタリングのためのプログラムを開発した。 3.製品選択支援のためのプロトタイプシステムの改良 ユーザの要求(「モバイル可能」など5種類)に合致したパソコン群をランキング出力するシステムの改良を行った。従来固定であった各属性の重みを適合性フィードバックやユーザの指定により変更可能とした。さらに,表や文章に加えて,レーダチャートによる表示など出力形式を多様化した。 4.製品画像データからの特徴抽出 画像データから背景領域を除去し,製品領域の色情報(黒,白,シルバー)による分類を試みた。単一色の背景はエッジ検出とラベリングで,複雑な背景はテンプレートマッチングとクラスタリングで除去するアルゴリズムを開発した。また,色分類にはC4.5を用いており,約80%の精度が得られた。
|
-
[Publications] 林晃司, 嶋田和孝, 遠藤勉: "WWWからの性能表抽出のためのキーワード獲得と重み付け"電子情報通信学会技術研究報告Tl2002-48〜53[思考と言語]. Vol.102 No.688. 13-18 (2003)
-
[Publications] 林晃司, 嶋田和孝, 遠藤勉: "WWWからの製品性能表抽出"言語処理学会第9回年次大会発表論文集. 377-380 (2003)
-
[Publications] 森松俊允, 福本篤史, 嶋田和孝, 遠藤勉: "製品性能表を用いた製品選択支援システムの構築"電気関係学会九州支部第55回連合大会講演論文集. 502 (2002)
-
[Publications] 福本篤史, 嶋田和孝, 遠藤勉: "製品性能表からの表構造生成"電気関係学会九州支部第55回連合大会講演論文集. 503 (2002)
-
[Publications] 林晃司, 遠藤勉, 嶋田和孝: "Webページからの製品性能表抽出"第10回電子情報通信学会九州支部学生会講演会. 126 (2002)
-
[Publications] 片山智央, 嶋田和孝, 遠藤勉: "Web上の画像からの製品領域の抽出"第10回電子情報通信学会九州支部学生会講演会. 141 (2002)