研究課題/領域番号 |
19K13822
|
研究機関 | 京都大学 |
研究代表者 |
阿部 寛康 京都大学, 医学研究科, 助教 (40807963)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 消費者心理・行動 / 非負値行列因子分解 / 零過剰ポアソン / 零過剰負の二項分布 / ベイズ統計学 / サンプリング法 / 変分ベイズ法 / 基底数決定 |
研究実績の概要 |
本年度は、主に消費者の心理・属性情報を取り入れた零過剰非負値行列因子分解(零過剰NMF)の開発のための研究を実施した。具体的には、自身が提案した、零過剰ポアソン分布をベースとした零過剰NMF手法を、零過剰負の二項分布をベースとした手法に拡張可能かどうかを、理論的観点、および数値実験によって確認した。その足掛かりとして、心理・属性情報を取り入れない、よりシンプルな統計モデルを対象に、確認を進めた。まず最初に着手したのは、分解行列の推定手順の導出である。計画通り、まずはベイズ統計学の理論に則り、分解行列のサンプリング手順を導き、これをプログラムで表現し、数値実験を実施した。結果、事後平均として求められる推定パラメータの精度が、既存手法と比べてよいことを確認した。また同時に、ある条件下ではNMFの真の基底数を推定できることも確認した。この成果については国内および国外で発表した。その後、サンプリング法とは別のベイズ推定法である変分ベイズ法を用いた推定についても検討した。変分ベイズ法は、サンプリング法では困難である事前分布の超パラメータを最適化しながら分解行列およびその基底数を推定できるため、推定に影響を与える事前設定が少なくて済むというメリットがある。しかしながら、検討の結果、零過剰負の二項分布モデルの下では、単なる負の二項分布モデルよりも、零過剰データに対する分解行列の推定精度はわずかに良い結果を示したにすぎず、また、基底数においては単なる負の二項分布モデルの方が良い結果を示した。変分ベイズ法による基底数推定は難しいことが分かったため、基底数推定はあきらめ、分解行列の推定精度の向上に焦点を置くため、最尤法に基づく推定について検討した。結果、予想した通り、分解行列の推定精度は零過剰負の二項分布の方が比較対照の推定モデルよりも良い結果を示した。この結果は国際会議で発表済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
計画通り、ベイズ統計学の理論をもとに、零過剰負の二項分布に基づくNMFの推定手順を検討してきたが、数値実験によって、基底数の推定が困難であることが明らかとなった。基底数は、消費者の購買モデルの文脈で言えば、購買行動タイプの数を意味する。探索的なデータ分析においては、その数は未知であり、解析結果を解釈する者への説得材料という点では、是非とも推定したいところである。サンプリング法では、事前分布の超パラメータを真値と同じ値とした場合に限って基底数を正しく推定できることを数値実験で確認したが、実データ解析の場面では事前分布の超パラメータを前もって決めることは困難である。一方で変分ベイズ法では、零過剰な負の二項分布に従うデータに対しては、零過剰負の二項分布よりも、単なる負の二項分布の方が真の基底数を正しく推定できることが数値実験により示されてしまい、これは予期せぬ結果であった。以上の検討により、基底数の推定は実データ解析を行う場面では困難であることがわかった。今年度はこれら数値実験による検討で想定外のことが起こり、そのため時間もかかったこともあり、実データ解析を実施するまでに到達することができなかったため、進捗状況としてはやや遅れていると言わざるを得ない。
|
今後の研究の推進方策 |
推定手法の開発において、現在、3つの方策を検討している。1つ目は、サンプリング法での事前分布の超パラメータをデータからあらかじめ推定し、この推定値をサンプリング法に用いることで基底数の推定を試みる、という方策である。超パラメータはデータの集計値を用いたモーメント法に基づいて、ある程度の当たりを付けることが可能であることを理論的観点から確認済みである。しかしながら、これは当たりを付けるだけで完全な推定となっていないだけでなく、モーメント法に基づく手法であるが故のバイアスも存在することが想定される。このような推定のあいまいさが、基底数推定にどのように影響するかを数値実験で検討する必要がある。2つ目の方策は、新たなベイズ手法に基づく推定手順の開発である。特に、ノンパラメトリックベイズ法の考え方を取り入れることで、基底を増減させながらサンプリングを行うことができる。1つ目の方策ではいくつかの候補となる基底数で1回ずつサンプリングを行うのに対し、ノンパラメトリックベイズ法では1度のサンプリングの中で最適な基底数を選ぶため、計算時間の短縮が期待できる。しかしながら、こちらの手法においても超パラメータの推定問題は残り、1つ目の方策と同じ課題が生じる。3つ目は妥協策であり、基底数推定をあきらめる、という方策である。この場合、いくつかの候補となる基底数での分解行列を推定・解釈し、解釈者の経験に基づいて最も採用すべき基底数の分解行列を決めることになる。この方策では、なるべくたくさんの基底数での分解行列を正しく推定することが求められるため、きわめて高度な推定精度と計算速度が要求されると考えており、そのための推定手法を考えていく必要がある。
|
次年度使用額が生じた理由 |
当初計画では高性能PCの購入、もしくは既存のPCの性能強化を予定していたが、実データ解析まで研究が追い付かなかったため、購入を断念し、計画よりやや少ない使用額となった。一方で、研究者になじみのある国内会議および国際会議が研究者の研究拠点の近くで多数開催されたこともあり、旅費においては計画より多く計上されたが、トータルでは使用金額は計画よりも少なくなり、次年度使用額が発生した。次年度の使用計画は次の3点である。1点目は、本年度に計画していたPC性能の強化を行い、比較的用量の大きい実データの解析に備えることである。2点目は、ベイズ統計に関する書籍を購入することである。現状困難であるNMFにおける基底数決定をベイズ竜に行うことについてヒントを得たいと考えている。3点目は、実データの購入である。これは当初の計画にはなかったが、現状で確保しているWEB閲覧履歴では、商品やサービスに対する興味度合を測る上ではやや薄いと考えており、より濃密なデータである購買履歴を購入したいと考えている。なお、現在コロナ禍による自粛要請により、各種学会が中止、延期、もしくはWEB開催となっているため、旅費の使用額が計画よりも少なくなる可能性がある。これを見込み、実データの購入を検討しているところである。
|