ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究

研究課題

研究課題/領域番号	12780233
研究種目	奨励研究(A)
配分区分	補助金
研究分野	計算機科学
研究機関	九州大学
研究代表者	坂本比呂志九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
研究期間 (年度)	2000 – 2001
研究課題ステータス	完了 (2001年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 2001年度: 1,000千円 (直接経費: 1,000千円) 2000年度: 1,300千円 (直接経費: 1,300千円)
キーワード	半構造データ / ウェブマイニング / HTML / 機械学習 / Webマイニング
研究概要	与えられたHTMLデータから目的のテキストを切り出すプログラムをHTMLラッパーと呼び、そのようなラッパーを機械的に学習する枠組みをラッパー帰納という。本研究ではHTMLデータの木構造に着目し、初年度はツリーラツパーとその学習の枠組みを提案した。ここでの目標はいくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである。このパスを抽出パスと呼び、ツリーラッパーはこのような抽出パスの集まりである。学習アルゴリズムの目標は、与えられたHTMLとテキストからそのテキストだけにマッチするできるだけよい抽出パスを発見することである。このツリーラッパーの枠組みでは学習に非常に時間がかかるということと、あたえられたHTMLデータの構造があらかじめ決まっていなければならないという欠点があった。そこで本年度ではうツパーの概念を拡張し、高速で大規模な実装を行った。ここで新たにパス表現という概念を導入し、学習例に依存しないアルゴリズムを提案した。その結果、大部分のHTMLデータに対してこのアルゴリズムが有効であることを示した。以上のような初年度及び本年度の研究成果は国内外の学会・論文誌において発表済みである。

報告書

(2件)

2001 実績報告書
2000 実績報告書

研究成果
(11件)

すべてその他

すべて文献書誌 (11件)

[文献書誌] Tatsuya Asai: "Efficient Substructure Discovery from Large Semi-structured Data"2^<nd> SIAM International Conference on Data Mining. (発表予定). (2002)
- 関連する報告書
  2001 実績報告書
[文献書誌] Hiroshi Sakamoto: "Knowledge Discovery from Semistructured Texts"Lecture Notes in Computer Science. (掲載予定). (2002)
- 関連する報告書
  2001 実績報告書
[文献書誌] 村上義継: "HTMLからのテキストの自動切り出しアルゴリズムと実装"情報処理学会論文誌:数理モデル化と応用. 42:SIG14. 39-49 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] Hiroki Arimura: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] Katsuaki Taniguchi: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] 坂本比呂志: "Webマイニング"人工知能学会誌. 16:2. 233-238 (2001)
- 関連する報告書
  2001 実績報告書
[文献書誌] H.Sakamoto,H.Arimura,S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Collquium on Grammatical Inference,(LNAI). 1891. 241-255 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).
- 関連する報告書
  2000 実績報告書
[文献書誌] H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).
- 関連する報告書
  2000 実績報告書
[文献書誌] 坂本比呂志,有村博紀: "Webマイニング"人工知能学会誌. 16・2. 233-238 (2001)
- 関連する報告書
  2000 実績報告書

ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究

研究代表者

坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)

2,300千円 (直接経費: 2,300千円)

報告書

研究成果

[文献書誌] Tatsuya Asai: "Efficient Substructure Discovery from Large Semi-structured Data"2^<nd> SIAM International Conference on Data Mining. (発表予定). (2002)

関連する報告書

[文献書誌] Hiroshi Sakamoto: "Knowledge Discovery from Semistructured Texts"Lecture Notes in Computer Science. (掲載予定). (2002)

関連する報告書

[文献書誌] 村上義継: "HTMLからのテキストの自動切り出しアルゴリズムと実装"情報処理学会論文誌:数理モデル化と応用. 42:SIG14. 39-49 (2001)

関連する報告書

[文献書誌] Hiroki Arimura: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

関連する報告書

[文献書誌] Katsuaki Taniguchi: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)

関連する報告書

[文献書誌] 坂本比呂志: "Webマイニング"人工知能学会誌. 16:2. 233-238 (2001)

関連する報告書

[文献書誌] H.Sakamoto,H.Arimura,S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Collquium on Grammatical Inference,(LNAI). 1891. 241-255 (2000)

関連する報告書

[文献書誌] H.Sakamoto,D Ikeda: "Intractability of decision problems for finite-memory automata"Theoretical Computer Science. 231. 297-308 (2000)

関連する報告書

[文献書誌] H.Sakamoto, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries. (IEEEから出版予定).

関連する報告書

[文献書誌] H.Sakamoto, et al: "Extracting partial structures from HTML documents"Proc.14th International FLAIRS Conference. (AAAIから出版予定).

関連する報告書

[文献書誌] 坂本比呂志,有村博紀: "Webマイニング"人工知能学会誌. 16・2. 233-238 (2001)

関連する報告書

坂本比呂志九州大学, 大学院・システム情報科学研究院, 助手 (50315123)