• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2016 年度 実施状況報告書

集約的シンボリックデータ解析の基礎構築

研究課題

研究課題/領域番号 26330054
研究機関統計数理研究所

研究代表者

中野 純司  統計数理研究所, モデリング研究系, 教授 (60136281)

研究期間 (年度) 2014-04-01 – 2018-03-31
キーワードシンボリックデータ / 非類似度 / 連続変数 / カテゴリー変数
研究実績の概要

現在、データ量が爆発的に増加しており、その解析のためには新しい統計手法が必要となっている。そのような手法のひとつと言えるシンボリックデータ解析は、個々のデータではなく、データの集合からなるグループを対象として解析するため、超大量データを縮約し現実的に扱うことができる。
本研究ではグループを多変量分布の実現と考え、その特徴を表現するために適切な記述統計量を用いることにし、それを集約的シンボリックデータと呼ぶ。各個体を表現する変数としては、連続的な実数変数と、カテゴリー変数がともに含まれる場合を考察する。これまでに、連続変数とカテゴリー変数を共通に取り扱うために、連続値を区間というカテゴリー値に変換して取り扱うことを考えた。そしてカテゴリー変数の統計量として2つのカテゴリー変数のペアに対して分割表を考え、その分割表のセル確率をそのグループの特徴量とみなした。そして、2つのグループにおいて、そのセル確率が同じと見なせるかどうかの尤度比検定統計量を2つのグループ間の非類似度と考えた。
今年度の研究では、そのような統計量は正確には疑似尤度比検定統計量と言わねばならないことが判明した。正確な尤度比検定統計量は一般超幾何分布を考えねばならず、非常に複雑になる。そのためわれわれの目的のためには、理論的にも計算量的にも簡単な疑似尤度比検定統計量が適当である。なお、昨年提案した非類似度をより詳しく分解することによって、2つのグループの違いがどこにあるかを調べるための可視化手法も近似的とは言え、その価値を失わない。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

当初の目的として(1)集約的シンボリックデータのモデル化とその記述方法の確立、(2)より高次のモーメントを表現する集約的シンボリックデータの開発、(3)種々の変数が混在する場合の集約的シンボリックデータの表現と解析の開発、(4)集約的シンボリックデータの数理統計的手法の開発、を挙げていた。(1)に関してはすでに度結果を得た。(2)に関してはまだ着手できなかった。(3)についてはすべてをカテゴリー変数として統一的に扱うということを提案した。(4)について、データのシミュレーションを考えているときに尤度比検定統計量が擬似的なものであることに気がつき、参考文献の探索とその意味を考察することに時間を費やした。これは当初の計画外のことであり、そのため研究は計画よりやや遅れたと自己評価する。

今後の研究の推進方策

今年度はこれまでの結果を論文にまとめたいと考え、実データの解析とともにシミュレーションも試みた。その仮定で尤度が正確な物ではなく疑似尤度であることに気がつき、その考察も行った。従って、29年度にそれらの結果を論文にまとめる。なお、多量データ解析のための環境であるHADOOPや並列化Rなどのシステムの準備はある程度整ったので、今年度はより多くのデータに対してわれわれの手法を適用し、その有効性を確認したい。また、われわれの手法とカテゴリー変数を連続化する多重対応分析との関係も考察する。

次年度使用額が生じた理由

旅費の変動のため残額が生じたが、少額のため次年度使用とする。

次年度使用額の使用計画

旅費などに充当する。

  • 研究成果

    (3件)

すべて 2017 2016

すべて 雑誌論文 (1件) (うち査読あり 1件、 オープンアクセス 1件) 学会発表 (2件)

  • [雑誌論文] Co-author Information and Authors' Affiliation Information in Scientific literature Using Centralities2016

    • 著者名/発表者名
      Mizukami, Y., Honda, K., Suzuki, S., Nakano, J. and Otabe, A.
    • 雑誌名

      International Journal of the Japan Association for Management Systems

      巻: 8 ページ: 1-8

    • DOI

      http://doi.org/10.14790/ijams.8.1

    • 査読あり / オープンアクセス
  • [学会発表] Summarizing aggregated symbolic data with categorical variables2017

    • 著者名/発表者名
      Junji Nakano
    • 学会等名
      ISI-ISM-ISSAS joint conference
    • 発表場所
      Indian statistical institute, Delhi, India
    • 年月日
      2017-02-21 – 2017-02-21
  • [学会発表] カテゴリー変数を含む集約的シンボリックデータの非類似度の性質2016

    • 著者名/発表者名
      清水信夫, 中野純司, 山本由和
    • 学会等名
      統計関連学会連合大会
    • 発表場所
      金沢大学
    • 年月日
      2016-09-05 – 2016-09-05

URL: 

公開日: 2018-01-16  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi