研究課題/領域番号 |
23700265
|
研究機関 | 大阪大学 |
研究代表者 |
楠木 祥文 大阪大学, 工学(系)研究科(研究院), 助教 (30588322)
|
研究期間 (年度) |
2011-04-28 – 2015-03-31
|
キーワード | データマインング / 機械学習 / クラスター分析 / ラフ集合 |
研究概要 |
平成23年度では,識別可能性に基づくクラスター間の非類似度を定義し,それらを階層的併合クラスタリングに適用した.クラスターの対それぞれに含まれる対象の対の,すべてまたは一部を識別することができる属性部分集合を数え上げるという考えから,3種類の非類似度を提案した.それらの非類似度の大小関係や三角不等式などの性質を示し,階層的クラスタリングにおける樹形図の反転について考察した.また,その中の一つが,クラスター間の最短距離とクラスターを表現できる極小な属性数とのトレードオフになっていることを示した.非類似度は正の論理式の真ベクトルの数と対応しているが,論理式の充足可能性問題でよく用いられる分枝法を非類似度の計算法として用いた.さらに,計算法の効率化について考察した.データに含まれる対象数が50程度の問題二つに対して,提案する非類似度を用いた階層的クラスタリングを適用した.提案する非類似度を用いた階層的クラスタリングを,最短距離法を用いた階層的併合クラスタリングや階層的分割クラスタリングと,クラスターの簡潔さ,異なるクラスター間距離およびクラスター内距離において比較した.提案する非類似度の一つでは,最短距離法や階層的分割法と比べ,クラスターの表現が簡潔になることを示した.また,その非類似度は,クラスター間の最短距離を最大化する最短距離法と比較して,同程度のクラスター間最短距離を達成できることを示した.これらの成果を国内および国際学会で発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
数値実験は当初の予定通りに達成している.しかし,提案した非類似度と従来のものとの理論的な性質の比較や,非類似度の計算方法の効率化など,理論面は当初の計画と比べやや不十分である.
|
今後の研究の推進方策 |
今後は,非類似度の改良と数値実験の中規模化にまず焦点を当てて研究を進めていく.提案した非類似度は,クラスター間の最短距離とクラスターの記述簡潔さのトレードオフになっているが,目的に応じてそれらを調整するためのパラメータの導入を検討する.さらに,最長距離の考えを非類似度に取り入れることを検討する.また,大規模なデータに対応するために,モンテカルロ法を用いた非類似度の近似計算について考察する.数値実験では,対象数が100から1000程度の中規模なデータに対して提案法を適用し,計算にどの程度時間が必要か調べ,計算時間の削減について考察する.また,今年度に引き続き,従来のクラスタリング手法と比較し,提案法の特徴を考察する.
|
次年度の研究費の使用計画 |
見込額と執行額が少し異なっているが研究計画に変更はなく,当初予定通りの計画を進めていく.
|