研究概要 |
Web上のデータから有用な情報を獲得するための研究は,Web知識ベース,文書の自動分類,キーワード発見など広範囲にわたって行われている.HTMLから部分的にテキストを抽出する問題は,そのようなWebマイニングにおけるひとつの課題である.与えられたHTMLから目的のテキストを切り出すプログラムをHTML Wrapperと呼び,いくつかのHTMLと切り出しテキストの両方の情報からそのHTML Wrapperを機械的に学習する枠組みをWrapper Inductionと呼ぶ.本研究ではHTMLの木構造に着目したTree-Wrapperとその学習の枠組みを提案した.ここでの目標は,いくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである.このパスを抽出パスと呼び,Tree-Wrapperはこのような抽出パスの集まりである.したがって学習アルゴリズムの目標は,与えられたHTMLとテキストからそのテキストだけにマッチするできるだけ長い抽出パスを発見することである.一方Tree-Wrapperは,ある抽出パスがHTMLのパスにマッチするときにその最後のノードからテキストを切り出す.本研究ではこのTree-Wrapperとその学習アルゴリズムを実装し,実際のサイトからテキストを抽出するTree-Wrapperの学習とテキスト抽出の実験を行った.その結果このサイトについてテキストを正しく抽出するTree-Wrapperが学習できることを確認した.さらにTree-Wrapperを拡張し,HTMLのタグの属性値など,より一般的なテキスト抽出を行う手法を提案し,その有効性を確認した.
|