研究課題/領域番号 |
21K11782
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 金沢大学 |
研究代表者 |
寒河江 雅彦 金沢大学, 経済学経営学系, 教授 (20215669)
|
研究期間 (年度) |
2021-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2025年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2024年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
|
キーワード | ノンパラメトリック / ヒストグラム / スプライン / 高次元 / データ縮約化 / 局所モーメント / メッシュ化データ / ビン化データ / スプライン平滑化 / ノンパラメトリック統計 |
研究開始時の研究の概要 |
画像・地図・交通ビッグデータ等では予めメッシュ単位にデータは集約され、分析を行う。このメッシュデータ分析はメッシュの構成法次第で結果に大きく影響を与える。私たちは、これまでの研究で予めグループ化(ビン化)したビン化データに局所的なモデリングを行うことで推定精度を高めるノンパラメトリック統計モデルの構築とその性質を研究してきた。 本研究では、メッシュデータとビン化データの類似点に着目し、画像・地図・交通データ分析で用いられるメッシュデータの統計的データ変換法の研究を行う。メッシュデータ解析の精度向上に繋がる汎用性のあるデータ変換法を開発し、機械学習・AIと統計学をつなぐ研究を実現する。
|
研究実績の概要 |
高次元データを階級に分けたヒストグラムタイプのノンパラメトリック密度推定のモデル開発とその理論的性質を調べている。今年度の成果としては、多次元のビン型密度推定量を更なる高次元へ展開するときに次元に依存しないバイアス項と次元が上がるにつれて精度が悪くなる分散項をどのように改良できるかが理論的な問題となる。 今年度は、2つのアプローチから取り組んだ成果を説明する: ①Tensor Product Spline Density Estimationでは、次元と共に増加するパラメータ数の縮約をしつつ、バイアスの収束レートをスプライン平滑化によって改良できることを示した。具体的には、多次元ヒストグラムにおいて、各ビン間の不連続性によって推定精度が低下する問題がある。そこで、平滑化によるモデル拡張でヒストグラムの推定精度 O(n-2q/2q+d), (q = 1), (q は推定効率、d は次元数) の改良を考える。先行研究では、Scott(1985) と Hjort(1986) がヒストグラムの各ビンの中点を線形で接続するFrequency Polygon(FP) を d 次元へ拡張し、その推定精度が O(n^-4/d+4), (q = 2) で、ヒストグラムを改良することを示した。今年度は、曲面の近似で用いられるTensor Product Spline を密度関数の推定に適用し、その理論を整備した。2 次元の場合での Tensor Product Spline 密度推定量 (TPS 推定量) について、平均積分二乗誤差 (MISE) に基づく推定精度と漸近正規性を明らかにした。その中で、推定精度の維持とパラメータの削減が両立できる方法について明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
Tensor Product Spline Density Estimationは、具体的にはまだ、低次元のパラメータ空間でのMIS公立と漸近正規性を示しているが、一般の次元での理論的な照明が未解決である。多次元ヒストグラムを Tensor Product 型で平滑化する 2 次元 TPS 推定量の推定精度は AMISE(f(x, y))=O(n-2/3), (q = 2) で、2 次元ヒストグラムの O(n-1/2), (q = 1) を改良できるものの、2 次元 FP のO(n-2/3), (q = 2) と同等の収束レートである。2 次元 TPS 推定量でパラメータを全 9 個から 6 個に削減する方法を提案し、収束レートが O(n-2/3), (q = 2) で変化せず、分散の定数項が低下することで AMISE が改良できることを示した。また、面積相等性の条件を追加して TPS 推定量を改良することを提案した。その推定精度が AMISE(ˆg(x, y)) = O(n-3/4), (q = 3) で、TPS 推定量より優れた推定精度であることを示した。 上記のように具体的な次元と設定をすれば、解析できるが、一般化としては、d次元空間のデータ、平滑化の微分条件をq次の連続性を保持した形での漸近的なMISEの性質と漸近正規性を示すまでには至っていない。今後の展開を進めていきたい。
|
今後の研究の推進方策 |
次年度に向けた取り組みとしては、多次元ヒストグラム密度推定法の拡張について議論する。多次元曲面の近似によく用いられるTensor Product Splineを密度推定に適用することを提案する。Bilinear及びBiquadraticの密度推定量それぞれのMISEに基づく推定精度と漸近正規性を示す。また、推定精度を改良する方法についても提案する。 Tensor Product Spline Density モデルの最大の効用は、パラメータを次元に対応して2分の1に縮小できる。この方法で例えば、d=10次元の場合、(1/2)^dだけパラメータを縮減できるため、d=2の場合、0.67、d=3の時、0.37、…、d=10では、約1/1000となり、パラメータ数が1000分の1に削減できる。この性質は、超高次元ほど、効率が上がること、また、漸近効率を上げていくと、ビン幅が広がり、敷いては、便数の大幅な減少も同時に得られる。この現象を数値事件等でも確認し、次元の呪いを高次元まで緩和できる可能性を示している。その方向への研究を加速させたい。
|