2003 Fiscal Year Annual Research Report
多次元時系列データマイニングのためのクラスタリング手法とその並列化
Project/Area Number |
15700124
|
Research Institution | Tohoku University |
Principal Investigator |
滝沢 寛之 東北大学, 情報シナジーセンター, 助手 (70323996)
|
Keywords | データマイニング / クラスタリング / 並列化 / 科学技術計算 |
Research Abstract |
高次元ベクトルデータを各クラスタのいずれかに分類する処理は、ベクトル量子化による符号化処理と同等である。この符号化処理のためには高次元ベクトル間の距離計算を非常に多くの回数行う必要があり、大規模な問題に適用する場合にはその計算負荷が大きな課題となる。特に時系列データを実時間処理する場合、特殊で高価な並列計算ハードウェアが必要不可欠であった。そこで、本研究では近年のパーソナルコンピュータ用描画ハードウェア(Graphics Processing Unit ; GPU)の急速な発展に着目し、一般的なGPUを並列プロセッサとして効果的に利用することで、特昧な専用ハードウェアを用いることなく従来よりも高速に符号化処理を行うベクトル量子化符号化器を実現した。 ユークリッド距離で定義される類似度に基づいた高次元ベクトルデータのクラスタリングは、ベクトル量子化における符号帳設計と同等である。この場合、平均歪みが最小となるように符号語(クラスタ中心)を配置することが望まれる。Chinrunguengらの手法(Optimal adaptive k-means algorithm,1995)は、等歪み原理に基づいて平均歪みの小さい符号帳を設計でき、しかも非定常な時系列データに適用可能である点で優れている。彼らの手法では、部分歪みエントロピを用いて符号帳の最適性が常に評価されている。クラスタ数の増加に比例してエントロピ計算に要する計算量が増大するため、クラスタ数の多い大規模な問題に適用するためにはエントロピ再計算のための時間が問題となる。本研究では、以前計算されたエントロピを再利用することで、エントロピを完全に再計算する必要がないことを明らかにした。符号帳の最適性に追従するようにエントロピを更新するための計算コストは、クラスタ数によらず一定となった。 データマイニングの重要な要素である可視化についても検討した。北海道大学の可視化サーバと東北大学の演算サーバおよび利用者端末との間をスーパーSINET経由で接続し、東北大学から北海道大学の可視化サーバを対話的に遠隔利用できることを実証実験した。物理的に遠隔地にある演算サーバを利用してクラスタリング処理やその後の可視化処理を行い、データマイニングに利用可能であることが実証された。
|
-
[Publications] 滝沢寛之, 小林広明: "An Effective Implementation of vector Quantization Encoder on Commodity Graphics Hardware"Proceedings of the 2^<nd> International Conference on Information Technology and Applications (ICITA 2004). (発行中)(CD-ROM). 1 (2004)
-
[Publications] 滝沢寛之, 小林広明: "A Fast Computation Scheme of Partial Distortion Entropy Updating"Proceedings of the International Conference on Information Technology (ITCC 2004). (発表予定). (2004)