ネットワーク上の半構造テキストデータの変換規則に関する知識獲得システムの研究
Project/Area Number |
12780233
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
計算機科学
|
Research Institution | Kyushu University |
Principal Investigator |
坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
|
Project Period (FY) |
2000 – 2001
|
Project Status |
Completed (Fiscal Year 2001)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 2001: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2000: ¥1,300,000 (Direct Cost: ¥1,300,000)
|
Keywords | 半構造データ / ウェブマイニング / HTML / 機械学習 / Webマイニング |
Research Abstract |
与えられたHTMLデータから目的のテキストを切り出すプログラムをHTMLラッパーと呼び、そのようなラッパーを機械的に学習する枠組みをラッパー帰納という。本研究ではHTMLデータの木構造に着目し、初年度はツリーラツパーとその学習の枠組みを提案した。ここでの目標はいくつかのテキストに共通してマッチする1本のパスをHTML上に発見することである。このパスを抽出パスと呼び、ツリーラッパーはこのような抽出パスの集まりである。学習アルゴリズムの目標は、与えられたHTMLとテキストからそのテキストだけにマッチするできるだけよい抽出パスを発見することである。このツリーラッパーの枠組みでは学習に非常に時間がかかるということと、あたえられたHTMLデータの構造があらかじめ決まっていなければならないという欠点があった。そこで本年度ではうツパーの概念を拡張し、高速で大規模な実装を行った。ここで新たにパス表現という概念を導入し、学習例に依存しないアルゴリズムを提案した。その結果、大部分のHTMLデータに対してこのアルゴリズムが有効であることを示した。以上のような初年度及び本年度の研究成果は国内外の学会・論文誌において発表済みである。
|
Report
(2 results)
Research Products
(11 results)