2017 Fiscal Year Research-status Report
Project/Area Number |
26330054
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
中野 純司 統計数理研究所, モデリング研究系, 教授 (60136281)
|
Project Period (FY) |
2014-04-01 – 2019-03-31
|
Keywords | シンボリックデータ / 非類似度 / 連続変数 / カテゴリー変数 |
Outline of Annual Research Achievements |
現在、データ量が爆発的に増加しており、その解析のためには新しい統計手法が必要となっている。そのような手法のひとつと言えるシンボリックデータ解析は、個々のデータではなくデータの集合からなるグループを対象として解析するため、超大量データを縮約し現実的に扱うことができる。ただ、これまでの研究ではグループを表現するために区間データなど周辺分布の情報だけを考えることが多かったが、その妥当性はあまり考慮されなかった。本研究ではグループを多変量分布の実現と考え、それを表現するために適切な記述統計量を用いることを提案し、集約的シンボリックデータと呼ぶ。そして集約的シンボリックデータの 1) 情報損失の少ない表現、2) これまでの研究との関係、3) 種々の数理統計的手法、を研究・開発することを目的とする。 これまでの研究で、集約的シンボリックデータの表現としては2次までのモーメント統計量を用いること、連続変数とカテゴリー変数を同等に扱えること、が重要であることがわかった。また、2つの集約的シンボリックデータ間の非類似度として(疑似)尤度比検定統計量を用い、また、集約的シンボリックデータ内の変数間の関係を表すために分割表の独立性の検定を利用することを提案した。 本年は非類似度としてカイ2乗統計量を用いることも考えた。これは疑似尤度比検定統計量よりも直観的な非類似度であり、連続変数はカテゴリー化することにより定義される。これを用いて東京都の賃貸物件データを解析した。また、変数間の関係を示す独立性の検定はいくつかの場合で直感に反する値となることがあることに気づき、その改善に取りかかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初の目的として(1)集約的シンボリックデータのモデル化とその記述方法の確立、(2)より高次のモーメントを表現する集約的シンボリックデータの開発、(3)種々の変数が混在する場合の集約的シンボリックデータの表現と解析の開発、(4>集約的シンボリックデータの数理統計的手法の開発、を挙げていた。(1)(3)に関してはすでに結果を得ているので計画通りである。(2)に関してはまだ着手できていない。その原因は2次のモーメントまででも種々の予想外の問題が発生したためである。(4)については、データのシミュレーションを考えているときに尤度比検定統計量が擬似的なものであることに気がつき、疑似尤度の利用に至り、それで一つの解法が得られた。このように(3)以外は結果を得ているが、それを論文にまとめる作業がまだ終わっていない部分がある。それで以上を考慮して研究は計画よりやや遅れていると自己評価する。
|
Strategy for Future Research Activity |
今年度はこれまでの結果を論文にまとめたいと考え、疑似尤度を用いて実データの解析も行った。ただ、その計算に不備が見つかり、現在やり直しているところである。そのかわり、カイ2乗統計量を用いた非類似度による解析を行い、そちらは現在投稿中である。これからは疑似尤度を用いた非類似度の論文を完成したい。さらに集約的シンボリックデータ内の変数の関係を示す統計量を、これまで考えてきた分割表の独立性の検定を利用するものを修正することで新しく提案したい。なお、多量データ解析のための環境であるHADOOPや並列化Rなどのシステムの準備は整ったので、今年度はより多くのデータに対してわれわれの手法を適用し、その有効性を確認したい。また、われわれの手法とカテゴリー変数を連続化する多重対応分析との関係も考察しなければならないと考えている。
|
Causes of Carryover |
データ解析のプログラム作成および解析作業に研究補助業務をお願いするつもりだったのと論文投稿のための費用が、理論構築の遅れから使用できなかった。それで次年度にそれらを実行する。
|
Research Products
(4 results)