2000 Fiscal Year Annual Research Report
ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
Project/Area Number |
12780233
|
Research Institution | Kyushu University |
Principal Investigator |
坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
|
Keywords | 半構造データ / Webマイニング / HTML / 機械学習 |
Research Abstract |
Web上のデータから有用な情報を獲得するための研究は,Web知識ベース,文書の自動分類,キーワード発見など広範囲にわたって行われている.HTMLから部分的にテキストを抽出する問題は,そのようなWebマイニングにおけるひとつの課題である.与えられたHTMLから目的のテキストを切り出すプログラムをHTML Wrapperと呼び,いくつかのHTMLと切り出しテキストの両方の情報からそのHTML Wrapperを機械的に学習する枠組みをWrapper Inductionと呼ぶ.本研究ではHTMLの木構造に着目したTree-Wrapperとその学習の枠組みを提案した.ここでの目標は,いくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである.このパスを抽出パスと呼び,Tree-Wrapperはこのような抽出パスの集まりである.したがって学習アルゴリズムの目標は,与えられたHTMLとテキストからそのテキストだけにマッチするできるだけ長い抽出パスを発見することである.一方Tree-Wrapperは,ある抽出パスがHTMLのパスにマッチするときにその最後のノードからテキストを切り出す.本研究ではこのTree-Wrapperとその学習アルゴリズムを実装し,実際のサイトからテキストを抽出するTree-Wrapperの学習とテキスト抽出の実験を行った.その結果このサイトについてテキストを正しく抽出するTree-Wrapperが学習できることを確認した.さらにTree-Wrapperを拡張し,HTMLのタグの属性値など,より一般的なテキスト抽出を行う手法を提案し,その有効性を確認した.
|
Research Products
(5 results)
-
[Publications] H.Sakamoto,H.Arimura,S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Collquium on Grammatical Inference,(LNAI). 1891. 241-255 (2000)
-
[Publications] H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)
-
[Publications] H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).
-
[Publications] H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).
-
[Publications] 坂本比呂志,有村博紀: "Webマイニング"人工知能学会誌. 16・2. 233-238 (2001)