2003 Fiscal Year Annual Research Report
テキスト・表・画像の対応構造に基づくマルチメディアコンテンツの要約に関する研究
Project/Area Number |
13680452
|
Research Institution | Kyushu Institute Of Technology |
Principal Investigator |
遠藤 勉 九州工業大学, 情報工学部, 教授 (10112294)
|
Co-Investigator(Kenkyū-buntansha) |
嶋田 和孝 九州工業大学, 情報工学部, 助手 (50346863)
|
Keywords | マルチメディア文書 / WWW / 要約 / 情報統合 / 情報検索 / 情報抽出 / 感性情報 / 文書生成 |
Research Abstract |
検索エンジンを用いてWWWから収集した複数の製品(パソコン)情報に対して,各々の製品の特徴をテキスト・表・画像の対応構造に基づき抽出・統合・要約することにより,ユーザの要求に合致した製品選択を支援するシステムの構築を目的として,今年度は以下の研究課題に取り組んだ。 1.Webページからの製品性能表の自動抽出 TSVM(Transductive Support Vector Machines)を用いて,HTML文書から製品性能表を自動抽出するプログラムを開発した。素性はT wrapperで抽出し,tf・idfで重み付けされたキーワードである。実験により,少量の訓練セットで高い表領域抽出結果(F値で99%)が得られることを確認した。 2.製品性能表の正規化 性能表は[機種名,属性,値]のリストの集合(表構造)に変換されるが,属性の表記はメーカにより異なる場合が多い。そこで,表構造に出現する語句を素性とするベクトルで各属性を表現し,ベクトル間類似度に基づく属性表記のクラスタリングを行った。正解率は70%であった。 3.製品の特徴データから要約文を生成するアルゴリズムの改良 正規化表構造から抽出された各製品の特徴が要約文として出力される。単文生成フレームの追加,文章の構造化と属性の関連付けなどを行うことにより,自然な文章が生成されるようにアルゴリズムを改良した。 4.レビューサイト情報を用いた製品選択支援のための知識獲得 ユーザの要求(「モバイルに最適」,「グラフィックスに強い」など)と製品属性の関連付けは人手で行っていたが,WWWのレビューサイトにおける分類結果から,要求に対する各属性の重みを自動的に獲得する手続きを開発した。実験の結果,本手法による属性の重み付けが有効であることが確認できた。
|
Research Products
(6 results)
-
[Publications] 嶋田和孝, 福本篤史, 遠藤勉: "Information Extraction from Personal Computer Specifications on the Web Using a User's Request"IEICE Transactions on Information and Systems. Vol.E86-D No.8. 1386-1395 (2003)
-
[Publications] 嶋田和孝, 伊藤哲郎, 遠藤勉: "Multiform Summarization from Product Specifications"Proceedings of PACLING2003(Pacific Association for Computational Linguistics 2003). 83-92 (2003)
-
[Publications] 嶋田和孝, 林晃司, 遠藤勉: "Keyword and Weighting for Product Specifications Extraction"Proceedings of PACLING2003(Pacific Association for Computational Linguistics 2003). 285-293 (2003)
-
[Publications] 遠藤勉: "対話支援型問題解決のための文脈情報処理"教育システム情報学会研究報告. Vol.18 No.3. 23-28 (2003)
-
[Publications] 関恒仁, 嶋田和孝, 遠藤勉: "Web上の製品性能表における属性クラスタリング"第11回電子情報通信学会九州支部学生会講演会講演論文集. 113 (2003)
-
[Publications] 林晃司, 嶋田和孝, 遠藤勉: "機械学習を用いたWWWからの製品性能表の分類と抽出"言語処理学会第10回年次大会発表論文集. 733-736 (2004)