2000 Fiscal Year Annual Research Report
データベースから近似的な規則を抽出する高速アルゴリズムの研究
Project/Area Number |
12780286
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
|
Keywords | テキストデータマイニング / 近接相関パターン / 最大合意問題 / 近似アルゴリズム / 接尾語木 |
Research Abstract |
本研究は,データベースのレコードを説明する規則の正確さについて,「例をどれだけ正しく説明できるか」で定義した「最大合意問題」を,さらに発展させ,例からの規則抽出の問題一般に最適化手法を適用するための枠組みを提案することを目的としていた.特に,効率のよい近似アルゴリズムを設計するための理論構築を行い,同時に実用性を確かめるためのプロトタイピングを行うことを目標にしている. 今年度は,最大合意問題の一般化された定式化を行い,広範囲の問題に適用して近似困難性の解析を行うことを目的とした.また,設計したアルゴリズムの実装評価を一部行うことも目標とした.最大合意問題の一般化された定式化としては,テキストデータから近接相関パターンを高速データマイニングする問題について,(1)評価関数の一般化,多様化を許した定式化への拡張を行い,(2)従来のデータマイニングが最大合意問題の部分問題としてとらえられるよう問題を拡張した.これにより,評価基準を従来の分類誤差だけでなく,エントロピー関数,Gini関数などに拡張できるようになり,実際のアプリケーションにおける実用性が高まったと考えられる. さらに(3)オーダー評価だけでなく,実システムとしての時間効率を重視したアルゴリズムを設計し,実装と計算実験によってその有効性を確認した.これは,パターンの部分を枚挙するためのデータ構造をSuffix TreeからSuffix Arrayに変更し,Suffix Arrayを用いてTreeを模倣するためのアルゴリズムを開発することで可能となった. その他,関連する近似アルゴリズムの基礎研究も行っている.
|
-
[Publications] T.Akutsu,H.Arimura,S.Shimozono: "On Approximation Algorithms for Local Multiple Alignment"Proc.of the Fourth Annual, International Conference on Computational Molecular Biology (RECOMB 2000). 1-7 (2000)
-
[Publications] 安部潤一郎,藤野亮一,下薗真一,有村博紀,有川節夫: "テキストデータからの高速データマイニング"人工知能学会誌. 15(4). 618-628 (2000)
-
[Publications] N.Kubo,S.Shimozono,K.Muramoto: "A Simple and Quick Approximation Algorithm for Traveling Salesman Problem in the Plane"Proc.of the 11th Interrational Conference on Algorithm and Computation. 216-227 (2000)
-
[Publications] N.Sugimoto,T.Toyoshima,S.Shimozono,K.Hirata: "Constructive learning of Context-Free Languages with a Subpansive Tree"Proc.of the 5th International Colloquium on Grammatical Inference. 270-283 (2000)