2000 年度実績報告書

ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究

研究課題

研究課題/領域番号	12780233
研究機関	九州大学
研究代表者	坂本比呂志九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
キーワード	半構造データ / Webマイニング / HTML / 機械学習
研究概要	Web上のデータから有用な情報を獲得するための研究は,Web知識ベース,文書の自動分類,キーワード発見など広範囲にわたって行われている.HTMLから部分的にテキストを抽出する問題は,そのようなWebマイニングにおけるひとつの課題である.与えられたHTMLから目的のテキストを切り出すプログラムをHTML Wrapperと呼び,いくつかのHTMLと切り出しテキストの両方の情報からそのHTML Wrapperを機械的に学習する枠組みをWrapper Inductionと呼ぶ.本研究ではHTMLの木構造に着目したTree-Wrapperとその学習の枠組みを提案した.ここでの目標は,いくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである.このパスを抽出パスと呼び,Tree-Wrapperはこのような抽出パスの集まりである.したがって学習アルゴリズムの目標は,与えられたHTMLとテキストからそのテキストだけにマッチするできるだけ長い抽出パスを発見することである.一方Tree-Wrapperは,ある抽出パスがHTMLのパスにマッチするときにその最後のノードからテキストを切り出す.本研究ではこのTree-Wrapperとその学習アルゴリズムを実装し,実際のサイトからテキストを抽出するTree-Wrapperの学習とテキスト抽出の実験を行った.その結果このサイトについてテキストを正しく抽出するTree-Wrapperが学習できることを確認した.さらにTree-Wrapperを拡張し,HTMLのタグの属性値など,より一般的なテキスト抽出を行う手法を提案し,その有効性を確認した.

研究成果
(5件)

すべてその他

すべて文献書誌 (5件)

[文献書誌] H.Sakamoto,H.Arimura,S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Collquium on Grammatical Inference,(LNAI). 1891. 241-255 (2000)
[文献書誌] H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)
[文献書誌] H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).
[文献書誌] H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).
[文献書誌] 坂本比呂志,有村博紀: "Webマイニング"人工知能学会誌. 16・2. 233-238 (2001)

2000 年度 実績報告書

ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究

研究代表者

坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)

研究成果

[文献書誌] H.Sakamoto,H.Arimura,S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Collquium on Grammatical Inference,(LNAI). 1891. 241-255 (2000)

[文献書誌] H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)

[文献書誌] H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).

[文献書誌] H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).

[文献書誌] 坂本比呂志,有村博紀: "Webマイニング"人工知能学会誌. 16・2. 233-238 (2001)

2000 年度実績報告書

坂本比呂志九州大学, 大学院・システム情報科学研究院, 助手 (50315123)