• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

HTML文書からの輪理構造自動推定に関する研究

研究課題

研究課題/領域番号 17700137
研究機関東京大学

研究代表者

吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)

キーワードWeb文書 / 文書構造 / XML / EMアルゴリズム / レイアウト
研究概要

Web文書の文書構造を統一的に捉えるために、タイトルや属性といった様々な要素を包含する「ヘッダ」という概念を提案した。また、その概念を応用し、XML Treeを参考にした「ヘッダ木」と呼ばれるデータ構造を考案した。ヘッダ木は、Web文書内でレイアウトによって表現される意味的階層構造を統一的に扱うためのモデルであり、これにより、Web文書を扱う様々なシステムへの応用が期待できる。Web文書からそのヘッダ木を抽出するために、HTMLファイルを文字列のリストに変換し、それにより得られたリストを確率モデルによりモデル化することで、リストの隣り合う要素の関係をEMアルゴリズムにより推定するという方針を採用し、その具体的な確率モデルを検討した。文字列のリストを通じてWeb文書を1次元的に捉えることで、2次元情報を扱うよりも少ない計算量で学習を行うことができる。1次元的な扱いで捉えられない関係については、クラスタリングを応用した手法により補完する。これらの手法を実際に実装し、小規模な実験により、ベースライン手法と比較して精度向上に効果があることを確認した。また、アプリケーションとして、Web文書のレイアウトを表・リスト・木構造等、様々な形式に変換するためのシステムを考案し、その試作を行った。また、文書構造の必要な部分だけを抜き出すことによる、文書検索結果の効果的な表示方法確立の可能性についても検討を行った。

  • 研究成果

    (2件)

すべて 2005

すべて 雑誌論文 (2件)

  • [雑誌論文] Reformatting Web Documents via Header Trees2005

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Proceedings of the ACL2005 Poster/Demo Session

      ページ: 121-124

  • [雑誌論文] Automatic Term Extraction based on Perplexity of Compound Words2005

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Proceedings of IJCNLP 2005 (LNAI 3651)

      ページ: 269-279

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi