2001 Fiscal Year Annual Research Report
データベースから近似的な規則を抽出する高速アルゴリズムの研究
Project/Area Number |
12780286
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
|
Keywords | データマイニング / 最大合意問題 / 近似アルゴリズム / 機械学習 / テキストデータベース |
Research Abstract |
本研究では最大合意問題とよばれる規則獲得の問題を発展させ,例からの規則抽出一般に適用する枠組みを提案した.そして効率のよい近似アルゴリズムを設計するための理論構築を行い,さらに実用性を確かめるためのプロトタイピングを行った.具体的には,エントロピー関数など様々な評価関数を使用できるよう拡張した.アプリケーション面では特に,ネットワーク上のウェブのソースファイル,SGMLファイルなど,従来のデータマイニング手法が苦手とする弱構造の大規模データベースヘの応用を行った. まず最大合意問題の評価関数をより一般に拡張し,例の分類精度をエントロピー,Giniインデックスなどを使って評価する方法を考察した.そして高速なアルゴリズムを設計し,さらにその実装評価を行った.現実の要求に近づけた状況で,メモリやディスクスペースを効果的に使用する技術とアルゴリズムとの親和性を,実験的にも検証した.特に,弱い構造,あるいは疑構造しか仮定できないテキストデータベースに対して,レコードの構造や登録項目(アイテム)をあらかじめ固定して想定する必要のない,入力に対して動的にレコードの処理や登録項目の抽出を行うシステムを構築した.その成果として,現実のテキストデータベースなどを対象とした知識抽出システムのプロトタイピングを行い,最大合意問題に基づくシステムの能力と実用上の問題点を明らかにした.
|
-
[Publications] 安部 潤一郎, 藤野 亮一, 下薗 真一, 有村 博紀, 有川 節夫: "テキストデータからの高速データマイニング--探索的文書ブラウジングとウェブデータヘの応用--"人工知能学会誌. 15(4). 618-628 (2000)
-
[Publications] S.Shimozono, H.Arimura, S.Arikawa: "Efficient discoverly of optimal word-association patterns in large text databases"New Generation Computing. 18. 49-61 (2000)
-
[Publications] H.Arimura, J.Abe, H.Sakamoto, S.Arikawa, R.Fujino, S.Shimozono: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Kyoto International Conference on Digital Libraries 2000. 121-126 (2000)
-
[Publications] N Kubo, S.Shimozono, K.Muramoto: "A simple and quick approximation algorithm for traveling salesman problem in the plane"Lecture Notes in Copmuter Science. 1969. 216-227 (2000)
-
[Publications] H.Hori, S.Shimozono, M.Takeda, A.Shnohara: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Lecture Notes in Computer Science. 2223. 719-730 (2001)
-
[Publications] K.Taniguchi, H.Sakamoto, H.Arimura, S.Shimozono, S.Arikawa: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)