研究課題/領域番号 |
26330054
|
研究機関 | 統計数理研究所 |
研究代表者 |
中野 純司 統計数理研究所, モデリング研究系, 教授 (60136281)
|
研究期間 (年度) |
2014-04-01 – 2018-03-31
|
キーワード | シンボリックデータ / 非類似度 / 連続変数 / カテゴリー変数 |
研究実績の概要 |
現在、データ量が爆発的に増加しており、その解析のためには新しい統計手法が必要となっている。そのような手法のひとつと言えるシンボリックデータ解析は、個々のデータではなく、データの集合からなるグループを対象として解析するため、超大量データを縮約し現実的に扱うことができる。 本研究ではグループを多変量分布の実現と考え、その特徴を表現するために適切な記述統計量を用いることにし、それを集約的シンボリックデータと呼ぶ。各個体を表現する変数としては、連続的な実数変数と、カテゴリー変数がともに含まれる場合を考察する。これまでに、連続変数とカテゴリー変数を共通に取り扱うために、連続値を区間というカテゴリー値に変換して取り扱うことを考えた。そしてカテゴリー変数の統計量として2つのカテゴリー変数のペアに対して分割表を考え、その分割表のセル確率をそのグループの特徴量とみなした。そして、2つのグループにおいて、そのセル確率が同じと見なせるかどうかの尤度比検定統計量を2つのグループ間の非類似度と考えた。 今年度の研究では、そのような統計量は正確には疑似尤度比検定統計量と言わねばならないことが判明した。正確な尤度比検定統計量は一般超幾何分布を考えねばならず、非常に複雑になる。そのためわれわれの目的のためには、理論的にも計算量的にも簡単な疑似尤度比検定統計量が適当である。なお、昨年提案した非類似度をより詳しく分解することによって、2つのグループの違いがどこにあるかを調べるための可視化手法も近似的とは言え、その価値を失わない。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初の目的として(1)集約的シンボリックデータのモデル化とその記述方法の確立、(2)より高次のモーメントを表現する集約的シンボリックデータの開発、(3)種々の変数が混在する場合の集約的シンボリックデータの表現と解析の開発、(4)集約的シンボリックデータの数理統計的手法の開発、を挙げていた。(1)に関してはすでに度結果を得た。(2)に関してはまだ着手できなかった。(3)についてはすべてをカテゴリー変数として統一的に扱うということを提案した。(4)について、データのシミュレーションを考えているときに尤度比検定統計量が擬似的なものであることに気がつき、参考文献の探索とその意味を考察することに時間を費やした。これは当初の計画外のことであり、そのため研究は計画よりやや遅れたと自己評価する。
|
今後の研究の推進方策 |
今年度はこれまでの結果を論文にまとめたいと考え、実データの解析とともにシミュレーションも試みた。その仮定で尤度が正確な物ではなく疑似尤度であることに気がつき、その考察も行った。従って、29年度にそれらの結果を論文にまとめる。なお、多量データ解析のための環境であるHADOOPや並列化Rなどのシステムの準備はある程度整ったので、今年度はより多くのデータに対してわれわれの手法を適用し、その有効性を確認したい。また、われわれの手法とカテゴリー変数を連続化する多重対応分析との関係も考察する。
|
次年度使用額が生じた理由 |
旅費の変動のため残額が生じたが、少額のため次年度使用とする。
|
次年度使用額の使用計画 |
旅費などに充当する。
|