2020 Fiscal Year Research-status Report
「距離の相関」を用いた独立性の検定-大規模複雑データへの応用へ向けて
Project/Area Number |
19K11868
|
Research Institution | Nanzan University |
Principal Investigator |
松井 宗也 南山大学, 経営学部, 准教授 (70449031)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 距離の相関係数 / ランダム・フィールド / 独立性検定 / 連続時間確率過程 |
Outline of Annual Research Achievements |
「研究開始時の研究の概要」は以下のとおりである。 「距離の相関係数」という統計量を用いて時空間データの独立性の検定を考える。この統計量は、データの次元や形式によらず、複数の確率変数の独立性を検定できる画期的なものである。以下の4つのテーマに取り組む: ① 連続時間確率過程が独立かどうかの検定、② 複数の確率場(ランダム・フィールド)の独立性の検定、③ 実データ(金融・時空間データ)への応用、④ 多様体上の確率変数の独立性検定。これらのテーマはいずれも高頻度・高次元・非線形といった大規模複雑データ解析を含む。こうしたデータへ「距離の相関係数」を応用することで、大規模複雑データをより解析し易いものとすることが研究の大きな柱である。 この概要を踏まえ2020年度に実施した研究の成果を述べる。テーマ①の研究に関しては研究を終了し、研究成果は論文として国際雑誌に掲載された。連続時間確率過程が独立かどうかの検定は、先行研究が殆どなく、世界的にみても独創的な研究と考えられる。 そしてテーマ②と③の研究に取り組んだ。テーマ②は、複数のランダムフィールドが独立かどうかの検定である。2つのアプローチから研究を進めた。格子点上にデータが観測される場合とフィールド上(時空間上)ランダムにデータが観測される場合である。両方の場合に漸近理論の構成などの理論的な研究を終えた。その中にはブートストラップ法を用いて検定を行うことの理論的正当性も証明も含まれる。さらに、「距離の相関係数」をプログラムとして実装し、数値実験によってこの方法の有効性も確かめた。テーマ③の実証研究に関しては、テーマ②の応用として日本の気象データ(時空間データ)を考えることにした。気象庁のウェブページから気象データをダウンロードし、欠損値を埋めるなどのデータのクリーニングを行った。これは実証研究の下準備にあたる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実績の概要欄で述べたように、柱となる4つの研究テーマのうち、1つ目は終えた。さらに2つ目と3つ目の研究も終盤に差し掛かっている。これがおおむね順調に進展していることの判断基準である。 2番目の研究のテーマは「② 複数の確率場(ランダム・フィールド)の独立性の検定」であった。ここでの研究には2つのアプローチ(フィールド上の格子点上にデータが観測される場合と、フィールド上でランダムにデータが観測される場合)を考えたことは既に述べた。検定統計量の漸近分布の導出や、ブートストラップ法が適応可能なことの理論的証明など、理論に関する研究成果は十分である。加えて「距離の相関係数」をプログラムとして実装し、数値実験によってこの方法の有効性も確かめた。これらの研究成果のみをまとめ、論文として投稿することも可能である。従って、②の研究はほぼ終えていると言えよう。 3つ目の研究テーマ「③ 実データ(金融・時空間データ)への応用」も目途がたっている。それは、フィールド上(空間上)の実データに「② 複数の確率場(ランダム・フィールド)の独立性の検定」の理論を応用し実証分析を行うというのものである。実際には日本の気象データを扱う。これは当初の予定とは異なり金融データは扱わないので研究方法の変更にあたる。しかし、実データへの応用という意味でテーマ③に適合するものである。気象庁のウェブページからダウンロードしたデータは、既に解析用にクリーニングを終えている。 実は、2020年度の予定では,③のデータ解析まで終える予定になっていた。ところがデータを解析用に整えるのに膨大な時間がかかり間に合わなかった。これが(1)「当初の計画以上に進展している」を選ばなかった理由である。夏前にはテーマ③の研究を終了し、最後の研究テーマ④に取り掛かりたい。
|
Strategy for Future Research Activity |
2つ目の研究のテーマ「② 複数の確率場(ランダム・フィールド)の独立性の検定」と 3つ目の研究テーマ「③ 実データ(金融・時空間データ)への応用」を合わせた研究を粛々と進める。そして最後の研究課題「④ 多様体上の確率変数の独立性検定」へ向かう。既に述べたように②はほぼ終えているので、③に関してもう少し詳しい説明をする。 実証分析には気象庁で作成される気象データを用いる。このデータは気象庁のウェブページからフリー(無料)でダウンロードできる。より正確には、各観測地点毎にエクセル形式の時系列データをダウンロードできる。日次、月次、四半期、年次の単位の気象データがある。日次のデータは標本数が非常に多く、統計量の漸近理論を応用するには適切である。しかし、降水量などのデータは、ゼロ観測日が多く取り扱いが難しい。また年次や四半期データは標本数が少ない。そこで月次のデータを考える。気象データは既にダウンロードし、解析用にクリーニングしてある(クリーニングとは欠損値を平均で補う等して、解析に適するようにデータを整頓することである)。ただし、空間データの実証なので、さらに全地点(数百個)のデータを配列データとして統合する必要がある。これには手間と時間がかかると予想されるが、統計分析フリーソフト「R」の組み込み関数を用いる等の対応を考えている。それに時間は十分にある。解析用に得られた気象データを、日本海側や太平洋側、北と南、あるいは地方区分ごとに統合し、相関係数や「距離の相関係数」を用いて、気象データ(気温、降水量、風速等)間の依存関係を分析する。その際、ピアソン流の相関係数との比較も行う。以上が今後の推進方策の概要である。夏前にはこの実証分析を終えて、最後のテーマ④に取り掛かりたい。
|
Causes of Carryover |
世界中で新型コロナウィルスが蔓延したため、多くの国で海外渡航が禁止された。そのために予定していた在外研究を行えなかった。やむを得ず、本年度の旅費や渡航費を次年度に繰り越した。繰り越した金額は次年度の在外研究費に充てる予定である。
|