現在、データ量が爆発的に増加しており、その解析のためには新しい統計手法が必要となっている。そのような手法のひとつと言えるシンボリックデータ解析は、個々のデータではなくデータの集合からなるグループを対象として解析するため、超大量データを縮約し現実的に扱うことができる。ただ、これまでの研究ではグループを表現するために区間データなど周辺分布の情報だけを考えることが多かったが、その妥当性はあまり考慮されなかった。本研究ではひとつのグループをある多変量分布の実現値の集合と考え、それを表現するために適切な記述統計量を用いることを提案し、集約的シンボリックデータと呼ぶ。そして集約的シンボリックデータの 1) 情報損失の少ない表現、2) これまでの研究との関係、3) 種々の数理統計的手法、を研究・開発することを目的とする。 これまでの研究で、集約的シンボリックデータの表現としては2次までのモーメント統計量を用いること、連続変数とカテゴリー変数を同等に扱えること、が重要であることがわかった。また、2つの集約的シンボリックデータ間の非類似度として(疑似)尤度比検定統計量やカイ二乗統計量を用いることを考えた。 さらに、集約的シンボリックデータ内の変数間の関係を表すために分割表の独立性の検定を利用することを提案したが、これには少々不都合な点があることがわかった。すなわち、2つのカテゴリー変数の関連性が高い場合を適切に記述しにくいということが判明した。 それで、本年はカテゴリー変数間の関連性を計るためにポリコリック相関係数を用いることを提案した。これを用いるとカテゴリー変数と連続変数の関係も表現することができることがわかった。これを用いて東京都の賃貸物件データを解析したところ、変数間の関係を適切に表していることが確認できた。
|