研究概要 |
クラスタは各々独立なものであるとし,独立性を重視したクラスタリングを考える。観測データの分布ができるだけ各々独立となるようクラスタ中心軸を抽出し,これをクラスタ中心とする。観測データはこの独立なクラスタ中心の線形和で構成されているとするクラスタリングを提案した。例えば,Web上の文書情報は単語で構成され,クラスタも単語で構成されるとし,単語を中間媒体としてWeb上の文書情報はクラスタの合成で構成できると考えるのである。また,対象が計測データであれば,計測データは計測された属性(計測属性)から構成され,クラスタも計測属性から構成されるとし,計測属性を中間媒体として計測データはクラスタの合成で構成できると考えるのである。クラスタ中心である観測データの分布ができるだけ各々独立となるようクラスタ中心軸を抽出するため,観測データ間の相互情報量が最小となるように独立成分分析の概念に基づきクラスタリング手法を定式化し,それをfastICAの改良で解くアルゴリズムを開発した。開発したクラスタ間の独立性重視のクラスタリング方法を人工データおよびベンチマークデータに適用し,その有効性を示した。通常,k-meansに代表されるユークリッド距離を用いるクラスタリングでは,計測属性のスケールが変わると,スケールが変わる前と異なったクラスタリング結果が生成されてしまう。提案したクラスタリングでは,スケールの変化に頑健なクラスタリングを得られる可能性が見えてきた。また,クラスタリング結果は多次元空間上で実施されるため,そのままではユーザがクラスタリング結果を理解しにくい。そこで多次元空間でクラスタリングされた結果を,多次元空間上でのユークリッド距離の関係がある種保持された形で2次元空間上に射影する方法を検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初,30%減の予算でスタートの可能性があったため,数値実験環境の構築が遅れる可能性を危惧していたが,削減がなかったため,年度後半に滞りなく数値実験を進めることができた。そのため,概ね計画通りに順調に進展している。
|
今後の研究の推進方策 |
機械学習の性能を評価するための分類問題用のベンチマークデータでは,データを自動的に分離するクラスタリングの性能を簡単には評価できない。そこで,本研究の中では,単なるベンチマークデータだけの評価ではなく,クラスタリング結果を人に評価してもらうやり方を考えていく。
|