2010 Fiscal Year Annual Research Report
閲覧者の観点によるWeb情報構造化のためのWebページ分割アルゴリズムの実現
Project/Area Number |
22500128
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
新谷 虎松 名古屋工業大学, 工学(系)研究科(研究院), 教授 (00252312)
|
Co-Investigator(Kenkyū-buntansha) |
大囿 忠親 名古屋工業大学, 工学(系)研究科(研究院), 准教授 (90324475)
|
Keywords | 知的エージェント / Webページ分割 |
Research Abstract |
HTMLを意味的な構造へと変換するためのWebページ分割アルゴリズムの設計を中心に行った.具体的には、(1)人間によるWebページ分割に関する調査、および(2)アルゴリズムの設計を行った.(1)では、人間がどのようにWebページを意味あるブロック(Webブロック)として分割しているのかを調査した.ここでは多数のWebページを人手によってWebブロックへ分割させ,具体的なデータ(Webページ分割事例)を収集するための実験を行った.実験環境として,専用のWebアプリケーションを開発した.本アプリケーションは,Webページのレンダリング結果の画像を被験者に提示し,簡単な操作でWebページの分割方法や閲覧者の観点などを記録できるようにした.被験者にはWebページの分割方法だけでなく,Webページのそれぞれの断片の役割,および断片間の関係を簡便に記述させた.収集したデータに基づき,人間のWebページ分割のための認識モデル,Webページの断片の役割を推定するために必要な知見,およびWebページの断片間の関係を推定するための知見を整理し,HTMLを意味的な構造へと変換するための汎用的なヒューリスティクスとして蓄積した.(2)では、本研究テーマの予備的研究において得られた成果(HTMLにおけるタグの構造だけでなく,レイアウトを考慮したWebページ分割アルゴリズムの実現)に基づきWebページ上の情報をWebブロックに分割するWebページ分割アルゴリズムのコアを設計した.予備的研究によりWebページ分割に関連して,レンダリング後のHTMLのイメージを解析することで,HTMLを文字列として解析するよりも良い結果が得られることを示したが,汎用性がなかった.本研究では、ここでの汎用性を高めるための工夫として,(1)で得られたヒューリスティクスを考慮した新たな階層型の解析手法に基づくアルゴリズムの設計を試みた.
|
Research Products
(9 results)