研究課題/領域番号 |
23700265
|
研究機関 | 大阪大学 |
研究代表者 |
楠木 祥文 大阪大学, 工学(系)研究科(研究院), 助教 (30588322)
|
キーワード | データマイニング / 機械学習 / クラスタリング / ラフ集合 |
研究概要 |
平成24年度では,23年度に提案した識別可能性に基づくクラスター間非類似度の計算時間の削減,および,この非類似度の改良の二つの研究課題に取り組んだ.本研究課題では,クラスター分析を適用するデータを属性によって記述された対象の集合で表現する.識別可能性の基づく非類似度は属性に対応した変数からなる論理式の真ベクトルの数として定義されている.その論理式は容易に計算できるが,真ベクトルの数え上げには大きな計算時間を必要とする.本研究課題では,主に,この非類似度を階層的クラスタリングに適用することを考えている.この場合,すべてのクラスター間で最小の非類似度を求めれば十分である.この非類似度に対応する論理式は属性部分集合の族とみなすことができるが,集合の包含関係について小さい論理式ほどその真ベクトルの数がより少ない.つまり,包含関係について極小な論理式のみを取り出し,それらの真ベクトル数のみを計算・比較することで,その他の論理式の真ベクトル数の計算をせずに最小の非類似度を得ることができる.この成果を国内会議で発表した.また,24年度では識別可能性に基づく新たな非類似度を提案した.23年度で定義した非類似度によって得られたクラスターは,群内距離が大きく,まとまらない傾向が見られた.これは,この非類似度が対象間の識別のみを考慮し,対象間の属性値の一致度を考慮していないためと考えられる.そこで,新たに完全不一致性を導入し,これと識別可能性を組み合わせた非類似度を提案した.数値実験では,この非類似度を用いた階層的クラスタリングにより,簡潔かつ群内距離の小さなクラスターを求めることができた.この成果を国内会議と国際会議で発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
研究課題の達成度の遅れについて二つの原因があげられる.一つ目として,非類似度の計算が十分に効率化できなかったことがあげられる.論理式を直接比較することにより不要な真ベクトル数の計算を削減するアプローチはある程度の結果は得られたが,大きな計算時間削減には至らなかった.また,論理式を線形不等式とみなして,その多面体の体積によって真ベクトル数を近似することも考えた.多面体の体積の計算は理論上は多項式時間で計算できるが,実際には,多くの場合,論理式の真ベクトル数を計算するよりも時間がかかってしまった.この計算効率化の不十分さにより,続く中規模の計算機実験が遅れることになった.二つ目として,平成24年度新しく提案した非類似度の解釈の困難さがある.23年度に提案した非類似度は,二つのクラスターを識別する属性部分集合の数として理解できる.一方,新たに導入した完全不一致性は,クラスターの記述し易さという観点からの解釈が難しい.また,新しい非類似度は,数値実験では良い結果を示しているが,その理論的性質の分析が進んでいない.
|
今後の研究の推進方策 |
識別可能性に基づく非類似度の計算効率化の困難性から,当初の予定とはことなり,このまま,この非類似度を用いた階層的クラスタリングのみに焦点を絞っていく.この非類似度の理論的分析は困難であるため,0-1の値のみを持つデータにおいて,様々なクラスターペアについて非類似度の値を見ていくことにより,非類似度の特徴を捉えていく.それと平行して,人工データやベンチマークデータを用いた数値実験により,最短距離法や最長距離法等の従来法と比較して,生成されるクラスターにどのような違いが生じるかを調べる.また,提案非類似度を用いた階層的クラスタリングを相関ルールの抽出へ適用する.提案非類似度によって得られたクラスター内の対象は,他のクラスターを識別でき,共通の値を持つ属性を多く持つと考えられるので,それらの属性値をif-thenルールの条件部と結論部に振り分けることにより相関ルールが得られる.さらに,クラス分類されたデータに対して,提案非類似度を用いた決定ルール抽出も考えられる.クラス間を識別しかつクラス内を識別できない属性部分集合の数によって類似度を定義し,それを用いてクラス内の対象をクラスタリングすることで,if-thenルールの条件部の基礎となる対象集合が得られる.これらの結果を国際会議や学術論文等で発表る.
|
次年度の研究費の使用計画 |
研究の進捗がやや遅れており,さらに研究計画の一部変更はあるが,研究費の使用については当初予定通りであり,計算機・書籍などの物品の購入や,旅費,学会参加費へ研究費を使用する計画している.
|