研究課題/領域番号 |
12780233
|
研究種目 |
奨励研究(A)
|
配分区分 | 補助金 |
研究分野 |
計算機科学
|
研究機関 | 九州大学 |
研究代表者 |
坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
|
研究期間 (年度) |
2000 – 2001
|
研究課題ステータス |
完了 (2001年度)
|
配分額 *注記 |
2,300千円 (直接経費: 2,300千円)
2001年度: 1,000千円 (直接経費: 1,000千円)
2000年度: 1,300千円 (直接経費: 1,300千円)
|
キーワード | 半構造データ / ウェブマイニング / HTML / 機械学習 / Webマイニング |
研究概要 |
与えられたHTMLデータから目的のテキストを切り出すプログラムをHTMLラッパーと呼び、そのようなラッパーを機械的に学習する枠組みをラッパー帰納という。本研究ではHTMLデータの木構造に着目し、初年度はツリーラツパーとその学習の枠組みを提案した。ここでの目標はいくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである。このパスを抽出パスと呼び、ツリーラッパーはこのような抽出パスの集まりである。学習アルゴリズムの目標は、与えられたHTMLとテキストからそのテキストだけにマッチするできるだけよい抽出パスを発見することである。このツリーラッパーの枠組みでは学習に非常に時間がかかるということと、あたえられたHTMLデータの構造があらかじめ決まっていなければならないという欠点があった。そこで本年度ではうツパーの概念を拡張し、高速で大規模な実装を行った。ここで新たにパス表現という概念を導入し、学習例に依存しないアルゴリズムを提案した。その結果、大部分のHTMLデータに対してこのアルゴリズムが有効であることを示した。以上のような初年度及び本年度の研究成果は国内外の学会・論文誌において発表済みである。
|