2005 Fiscal Year Annual Research Report

HTML文書からの輪理構造自動推定に関する研究

Research Project

Project/Area Number	17700137
Research Institution	The University of Tokyo
Principal Investigator	吉田稔東京大学, 情報基盤センター, 助手 (40361688)
Keywords	Web文書 / 文書構造 / XML / EMアルゴリズム / レイアウト
Research Abstract	Web文書の文書構造を統一的に捉えるために、タイトルや属性といった様々な要素を包含する「ヘッダ」という概念を提案した。また、その概念を応用し、XML Treeを参考にした「ヘッダ木」と呼ばれるデータ構造を考案した。ヘッダ木は、Web文書内でレイアウトによって表現される意味的階層構造を統一的に扱うためのモデルであり、これにより、Web文書を扱う様々なシステムへの応用が期待できる。Web文書からそのヘッダ木を抽出するために、HTMLファイルを文字列のリストに変換し、それにより得られたリストを確率モデルによりモデル化することで、リストの隣り合う要素の関係をEMアルゴリズムにより推定するという方針を採用し、その具体的な確率モデルを検討した。文字列のリストを通じてWeb文書を1次元的に捉えることで、2次元情報を扱うよりも少ない計算量で学習を行うことができる。1次元的な扱いで捉えられない関係については、クラスタリングを応用した手法により補完する。これらの手法を実際に実装し、小規模な実験により、ベースライン手法と比較して精度向上に効果があることを確認した。また、アプリケーションとして、Web文書のレイアウトを表・リスト・木構造等、様々な形式に変換するためのシステムを考案し、その試作を行った。また、文書構造の必要な部分だけを抜き出すことによる、文書検索結果の効果的な表示方法確立の可能性についても検討を行った。

Research Products
(2 results)

All Journal Article (2 results)

[Journal Article] Reformatting Web Documents via Header Trees2005
- Author(s)
  Minoru Yoshida, Hiroshi Nakagawa
- Journal Title
  
  Proceedings of the ACL2005 Poster/Demo Session
  
  Pages: 121-124
[Journal Article] Automatic Term Extraction based on Perplexity of Compound Words2005
- Author(s)
  Minoru Yoshida, Hiroshi Nakagawa
- Journal Title
  
  Proceedings of IJCNLP 2005 (LNAI 3651)
  
  Pages: 269-279