2005 Fiscal Year Annual Research Report
Project/Area Number |
17700137
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
|
Keywords | Web文書 / 文書構造 / XML / EMアルゴリズム / レイアウト |
Research Abstract |
Web文書の文書構造を統一的に捉えるために、タイトルや属性といった様々な要素を包含する「ヘッダ」という概念を提案した。また、その概念を応用し、XML Treeを参考にした「ヘッダ木」と呼ばれるデータ構造を考案した。ヘッダ木は、Web文書内でレイアウトによって表現される意味的階層構造を統一的に扱うためのモデルであり、これにより、Web文書を扱う様々なシステムへの応用が期待できる。Web文書からそのヘッダ木を抽出するために、HTMLファイルを文字列のリストに変換し、それにより得られたリストを確率モデルによりモデル化することで、リストの隣り合う要素の関係をEMアルゴリズムにより推定するという方針を採用し、その具体的な確率モデルを検討した。文字列のリストを通じてWeb文書を1次元的に捉えることで、2次元情報を扱うよりも少ない計算量で学習を行うことができる。1次元的な扱いで捉えられない関係については、クラスタリングを応用した手法により補完する。これらの手法を実際に実装し、小規模な実験により、ベースライン手法と比較して精度向上に効果があることを確認した。また、アプリケーションとして、Web文書のレイアウトを表・リスト・木構造等、様々な形式に変換するためのシステムを考案し、その試作を行った。また、文書構造の必要な部分だけを抜き出すことによる、文書検索結果の効果的な表示方法確立の可能性についても検討を行った。
|