2003 Fiscal Year Annual Research Report

メタ学習機構に基づくアクティブマイニング

Research Project

Project/Area Number	13131205
Research Institution	Shizuoka University
Principal Investigator	山口高平静岡大学, 情報学部, 教授 (20174617)
Co-Investigator(Kenkyū-buntansha)	大崎美穂静岡大学, 情報学部, 助手 (30313927) 福田直樹静岡大学, 情報学部, 助手 (30345805) 和泉憲明独立行政法人産業技術総合研究所, サイバーアシスト研究センター, 研究員 (50293593)
Keywords	データマイニング / メタ学習 / 属性選択 / ルールの興味深さ
Research Abstract	まず,今まで,所与のデータセットに対して適切なデータマイニングアルゴリズムを自動合成するメタ学習機構を開発してきたが,これを構成的メタ学習と呼ぶこととし,複数のデータマイニングを適切に選択する選択的メタ学習の代表的なアルゴリズムであるスタッキングと精度を比較評価した.その結果,構成的メタ学習の精度の方が高いことが判り,その有意性を示すことができた. 次に,属性選択については,フィルター法によりシーズとなる属性群を選択し,それを逐次的に拡張するシーズ法という新しい属性選択法を提案し評価した.シーズ法の精度は概ねよかったが,データセットによっては,シーズ属性群に精度を劣化させる属性が含まれるケースがあった.そこで,因子分析により,因子負荷量最小値となる属性は固有性が高いことから精度劣化要因になると仮定して削除するという前処理を追加した.その結果,改良シーズ法が最良の精度を示すことが確認された. 最後に,慢性肝炎データセットを分析し,離散値に基づくルール発見を試みて,専門家である医師の評価を受けてきたが,今年度は,興味深いとされたルールをどの程度自動的に選択できるかという課題に取り組んだ.まず,調査した従来の興味深さ指標を,一般的指標,確率に基づく指標,統計に基づく指標,情報量に基づく指標に分類した後,代表的と思われる15個の指標を選択し,今までに発見されたルール群にそれら15個の指標値を求め,同じルール群に対する医師の評価と比較した.その結果,x2指標値が十分機能すること,Specificity, Recall, J-Measure, K-Measure, Credibility, Liftなどの指標値は限定された状況下では機能すること,Prevalenceはほとんど機能しないことが判明した.

Research Products
(4 results)

All Other

All Publications (4 results)

[Publications] Masaki Kurematsu: "DODDLE II A Domain Ontology Development Environment Using a MRD and Text Corpus"電子情報通信学会英文論文誌D. 掲載予定. (2004)
[Publications] Hidenao Abe: "Comparing the parallel Automatic Composition of Inductive Applications with Stacking Methods"ECML/PKDD-2003 WS on Parallel and Distributed computing for Machine Learning. 1. 1-12 (2003)
[Publications] Miho Ohsaki: "A Rule Discovery Support System for Sequential Medical Data-In the Case Study of a Chronic Hepatitis Dataset-"ECML/PKDD-2003 WS on Discovery Challenge. 1. 154-165 (2003)
[Publications] Miho Ohsaki: "Investigation of Rule Interestingness in Medical Data Mining"ISMIS WS on AM2003. 1. 85-97 (2003)

2003 Fiscal Year Annual Research Report

メタ学習機構に基づくアクティブマイニング

Principal Investigator

山口 高平 静岡大学, 情報学部, 教授 (20174617)

Research Products

[Publications] Masaki Kurematsu: "DODDLE II A Domain Ontology Development Environment Using a MRD and Text Corpus"電子情報通信学会英文論文誌D. 掲載予定. (2004)

[Publications] Hidenao Abe: "Comparing the parallel Automatic Composition of Inductive Applications with Stacking Methods"ECML/PKDD-2003 WS on Parallel and Distributed computing for Machine Learning. 1. 1-12 (2003)

[Publications] Miho Ohsaki: "A Rule Discovery Support System for Sequential Medical Data-In the Case Study of a Chronic Hepatitis Dataset-"ECML/PKDD-2003 WS on Discovery Challenge. 1. 154-165 (2003)

[Publications] Miho Ohsaki: "Investigation of Rule Interestingness in Medical Data Mining"ISMIS WS on AM2003. 1. 85-97 (2003)

山口高平静岡大学, 情報学部, 教授 (20174617)