研究課題/領域番号 |
26330054
|
研究機関 | 統計数理研究所 |
研究代表者 |
中野 純司 統計数理研究所, モデリング研究系, 教授 (60136281)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | シンボリックデータ / 可視化 / クラスター分析 / 連続変数 / カテゴリー変数 |
研究実績の概要 |
現在,データ量が爆発的に増加しておりその解析のためには新しい統計手法が必要となっている.そのような手法のひとつと言えるシンボリックデータ解析は,個々のデータではなくデータの集合からなるグループを対象として解析するため,超大量データを縮約し現実的に扱うことができる.本研究ではグループを表現するために適切な記述統計量を用いることを提案し,それを集約的シンボリックデータと呼ぶ. まず,連続変数集約的シンボリックデータの主成分分析を考察した.これまではシンボリックデータ解析においては区間データの主成分分析が考察され,中心法と頂点法などが提案されている.われわれの集約的シンボリックデータはグループ内の連続変数の平均,分散,共分散(相関)を用いて記述する.これを用いて主成分分析を行うことが中心法や頂点法などの拡張になっていることがわかった. さらに,実際の多くのデータでは連続変数とカテゴリー変数が混在していることに着目した.そのようなデータのグループを記述するために,連続変数の主成分分析の場合と同じく,2次までのモーメントを利用する.すると集約的シンボリックデータは,グループ内の個体数,連続変数の平均,分散,共分散,カテゴリー変数のペアごとの分割表,一つのカテゴリー変数の値ごとの一つの連続変数の平均,で記述されることになる.これらを用いることによってグループの可視化,クラスター分析を行う手法を提案できた.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度の当初の計画は,(1)シンボリックデータ解析における区間データの主成分分析の再検討と改良,(2)シンボリックデータ解析における他の手法の再検討と改良,(3)種々の変数が混在する場合の集約的シンボリックデータの表現と解析の開発,であった.(1)に関してはグループ内の変数間の共分散を考慮することにより,これまでの区間データより精密な解析ができることがわかった.(3)に関しては,連続変数とカテゴリー変数が混在する場合の集約的シンボリックデータを定義でき,さらに尤度比検定統計量を用いてグループ間の類似度を定義すると妥当なクラスター分析が可能となることが判明した.また,可視化においても,拡張した並行座標プロットを用いればすべてのグループの情報を同時に表示できることがわかった.(2)に関しては当初は連続変数のみの場合を考察しようとしていたが,カテゴリー変数も同時に扱うことが重要であることに気がつきそちらに注力したため,今年度は手が回らなかった.従って(1)(3)が計画以上に進展し,(2)が遅れているということで全体の達成度は順調と判断する.
|
今後の研究の推進方策 |
当初の計画通り行えばよいと考えている.特に27年度はカテゴリー変数に関する多重対応分析との関係を主として考察する.可視化のためにカテゴリー変数の各カテゴリー値にスコアを与えて連続化しているが,これは多重対応分析の考え方に近い.また,連続変数とカテゴリー変数を同時に考えグループ間の類似度を定義するために連続変数をカテゴリー化することも提案しており,その場合,非常にスパースな複数の分割表を考えなければならない.そのような分割表を少数のパラメータを持ちいて解析する手法を開発する必要がある.これも多重対応分析の理論と関係が深い. また,提案手法の有効性を強調するために実データの解析も行う.最近になって数ギガバイト以上の大量データが比較的容易に入手可能になってきたので,それらを用いることによって開発した手法の利点や欠点が判明すると期待している. なお,しばらくは可視化やクラスタリングなどの記述的手法に注力し,推定や検定のような数理的手法の開発はそのあとで研究する予定である.
|