2005 年度実績報告書

HTML文書からの輪理構造自動推定に関する研究

研究課題

研究課題/領域番号	17700137
研究機関	東京大学
研究代表者	吉田稔東京大学, 情報基盤センター, 助手 (40361688)
キーワード	Web文書 / 文書構造 / XML / EMアルゴリズム / レイアウト
研究概要	Web文書の文書構造を統一的に捉えるために、タイトルや属性といった様々な要素を包含する「ヘッダ」という概念を提案した。また、その概念を応用し、XML Treeを参考にした「ヘッダ木」と呼ばれるデータ構造を考案した。ヘッダ木は、Web文書内でレイアウトによって表現される意味的階層構造を統一的に扱うためのモデルであり、これにより、Web文書を扱う様々なシステムへの応用が期待できる。Web文書からそのヘッダ木を抽出するために、HTMLファイルを文字列のリストに変換し、それにより得られたリストを確率モデルによりモデル化することで、リストの隣り合う要素の関係をEMアルゴリズムにより推定するという方針を採用し、その具体的な確率モデルを検討した。文字列のリストを通じてWeb文書を1次元的に捉えることで、2次元情報を扱うよりも少ない計算量で学習を行うことができる。1次元的な扱いで捉えられない関係については、クラスタリングを応用した手法により補完する。これらの手法を実際に実装し、小規模な実験により、ベースライン手法と比較して精度向上に効果があることを確認した。また、アプリケーションとして、Web文書のレイアウトを表・リスト・木構造等、様々な形式に変換するためのシステムを考案し、その試作を行った。また、文書構造の必要な部分だけを抜き出すことによる、文書検索結果の効果的な表示方法確立の可能性についても検討を行った。

研究成果
(2件)

すべて雑誌論文 (2件)

[雑誌論文] Reformatting Web Documents via Header Trees2005
- 著者名/発表者名
  Minoru Yoshida, Hiroshi Nakagawa
- 雑誌名
  
  Proceedings of the ACL2005 Poster/Demo Session
  
  ページ: 121-124
[雑誌論文] Automatic Term Extraction based on Perplexity of Compound Words2005
- 著者名/発表者名
  Minoru Yoshida, Hiroshi Nakagawa
- 雑誌名
  
  Proceedings of IJCNLP 2005 (LNAI 3651)
  
  ページ: 269-279