研究課題/領域番号 |
18K11205
|
研究機関 | 関西大学 |
研究代表者 |
高井 啓二 関西大学, 商学部, 准教授 (20572019)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 欠測データ / 不完全データ / フィッシャースコアリング / EMアルゴリズム / 最尤推定 |
研究実績の概要 |
情報技術の進歩によって,様々なデータが簡単に取れるようになった.それにともない,当初計画した通りに取れない,一部が欠けたデータがしばしば発生するようになった.これを欠測データという.欠測データは,特に社会科学など人間のデータを扱う分野で頻出している.欠測データの解析を行う上での問題点は,完全データが利用可能である従来の統計手法を直接は利用できない点にある.従来の解析法を用いるために全変数が取られているデータだけを使うといった単純な解決策を用いると,サンプルサイズが減少するばかりではなく,欠測しているという情報を使わないことになってしまう.さらに,そのような方法では推定値にバイアスが生じてしまう.そこで,観測しているデータ全てを使うのが現在の欠測データ解析の基本的な方法となっている. この現代的な方法にも,推定値を出すための方程式の形が複雑になってしまい,その方程式を解くための微分などの計算の形もまた複雑になるという問題がある.その結果,パラメータの(最尤)推定値が明示的な形で得られなくなってしまう.このような欠測データに対するパラメータの推定にともなう問題に対して本年度は二つの研究を行なった.一つは,データ解析を行う際の代表的な分布である多変量正規分布に対して,明示的な最尤推定値を導出し,その性質を調べる研究である.本研究により,欠測があるときの正規分布の推定値の性質だけでなく,推定量としての性質も調べることができるようになった.もう一つの研究は,これまでに開発した不完全データフィッシャースコアリング法を発展させ,探索的な因子分析モデルの最尤推定値を得るためのパラメータ分割に対応させる開発をしたことである.この研究により,従来EMアルゴリズムでは計算できなかったデータに対しても,高速にパラメータを計算することが可能になった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の目的は,「欠測データに対するニュートン型の計算法を用いてEMアルゴリズムに代わる推定法(不完全データフィッシャースコアリング;IFS)を開発すること」であった.現在,本年度に得られたIFS法の定義・性質についての論文を投稿中である.この結果にもとづいて,本年度の目的として挙げていた「パラメータを分割したときの推定法」の開発も開始した.このパラメータ分割によるIFSついては,学会にて探索的な因子分析に適用した結果を発表している. 一方で,本年度の欠測データにもとづく正規分布のパラメータ推定の結果は,本研究の本来の目的には本来なかったものである.これはIFSの性質を探求する中で生まれた.この結果では,EMとIFSの関係性,EMの解釈についても説明を与えているだけでなく,新たな数理的な性質を与えている.現在主流のパラメータ推定方法であるEMアルゴリズムに対して,しばしば誤った説明がなされている状況を考えると,新たな計算方法であるIFSに対する説明を与えておくことは重要であろう.この説明から新たなIFSの数理的な性質を導出している.したがって,本研究の目的とは若干異なるこの結果も,研究目的の達成の一助となることが期待できる.以上のような理由から,概ね順調に進展していると判断する.
|
今後の研究の推進方策 |
今後はこれまでに得られた結果を用いて,欠測データがある時の多変量正規分布の最尤推定量の分布の導出と,不完全データフィッシャースコアリング法(以降,IFSと略記)にもとづいた推定値の計算法を発展させたい.完全データにおける統計解析ではサンプルサイズが小さいときの正確な標本分布(t分布など)が重要な役割を果たしている.実際のデータでは依然として,標本サイズが小さいことも多く,そのような正確な標本分布の需要は高い.一方,欠測データでは明示的な推定量が利用できないので,そのような標本分布は導出することができず,大標本理論にもとづく漸近分布が利用されてきた.欠測データにおいても小さいサイズの標本しか得られないことがあるため,欠測データにもとづいて正確な分布を導出する必要があるだろう.これまでに正規分布の場合には,欠測データにもとづいて小標本のときの明示的な最尤推定量を導出することができている.そこで,今後はこの結果を用いて小標本の場合の明示的な推定量の分布を導出することを目指す. 正規分布以外の分布の場合には,やはり複雑な目的関数を解いて推定値を得る必要がある.そこで,IFSをさらに発展させていく.具体的には,様々な形のパラメータ分割を行なう推定法の開発,非単調な増加を行う方法の開発を試みる.パラメータ分割によって,計算量を減らし,プログラムを簡潔にすることができる.これは例えば,探索・検証的療法の因子分析などのパラメータ数が多く,パラメータが自然に分割されるときに有効な方法である.非単調な増加を行う方法とは,短期的には単調に目的関数が増加しないが,長期的に見ると増加する方法である.この方法では,何回かは目的関数の減少を許すため,常に単調増加を試みる方法よりも計算回数が少なくなることが期待できる.なお,非単調な増加法はパラメータ分割と組み合わせて用いることを前提としている.
|
次年度使用額が生じた理由 |
予定との差額が生じた一つ目の理由は,見込んでいた論文の英文校閲が予定よりも低い金額でできたためである.現在2018年度に提出した2本の論文が査読を終え,リビジョンを行なっている状態である.生じている差額は,このような論文の再提出の前の英文校閲に利用する予定である.差額が生じたもう一つの理由は,結果が出ず,予定していた国際会議に参加できず,旅費として使用できなかったためである.この差額は,これまでに得られた結果を国際会議で発表するのに利用する予定である. 本年度の総額分は,論文の校閲に予算額の20%を,国際会議(計算機統計学に関する国際会議)および国内会議(日本統計関連学会連合大会)の参加に50%を,残りの30%を書籍やパソコンの周辺機器の購入にあてる予定である.
|