研究課題/領域番号 |
20K22125
|
研究機関 | 石巻専修大学 |
研究代表者 |
佐藤 平国 石巻専修大学, 経営学部, 助教 (10878804)
|
研究期間 (年度) |
2020-09-11 – 2022-03-31
|
キーワード | 機械学習 / 識別性 / ベイズ推定 / 潜在的ディリクレ配分法 / マーケティング尺度 |
研究実績の概要 |
本年度は因子モデルや非負値行列分解の文脈で議論されてきた識別条件を基に、識別可能なLDA(Latent Dirichlet Allocation)と相関LDA(Logistic-normal LDA)の推定アルゴリズムを提案した。LDAは変分ベイズ法やCollapsed Gibbs Samplerなどの高速計算による推定が可能であり、離散値の多変量データを分析対象とすることから社会科学を含む多くの分野で応用されている。しかし、LDAはベイズ・モデルであってもベイズ因子モデルと同様にパラメータの識別性や不定性、あるいは不安定性の問題が本質的に解決するわけではなく、必要に応じて特定の制約や事前分布の推定が必要となる。これらを考慮しなくとも、潜在トピック(潜在因子)の探索的な発見や特徴量回帰による予測などでは問題にならないことが多い。一方で、本来は関係性の弱い観測変数同士から共通のトピックが推定されたり、特徴量回帰では潜在トピックの重要度または影響力を表す回帰係数パラメータの推定値に著しいバイアスが生じたりすることがある。そのため、潜在トピックに特定の分野における意味づけや操作的定義を行う場合には適切な解釈が得られないことがある。本研究では、このような問題と提案した推定アルゴリズムの妥当性をシミュレーションによって確認しワーキングペーパーに整理した。具体的には、(1)アンカーワードの特定と潜在トピックの事前分布の推定、(2)因子モデルの制約、を取り入れることで、それぞれ標準的なLDAと相関LDAの識別が可能となることを示した。また、これらの成果を2つの国内学会で報告し、マーケティング尺度(心理測定尺度)やテキスト分析、確認的(Confirmatory)LDAへの応用可能性を議論した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
推定アルゴリズムの導出は完了しているが、実データを使った分析による検証が未完了であるため。この理由は、必要なデータを収集するためのオンライン調査の実施が予定より遅れたためである。2021年3月時点で収集が完了しており、分析を進めているところである。
|
今後の研究の推進方策 |
大きく3つの課題があり、1つ目は安定的なニューラルネットワーク・モデルを構築することである。例えば、オートエンコーダーもまた因子モデルと同様に次元削減の手法であるとともに識別不能なモデルである。そのため、推定毎に解釈が大きく変わらないような結果を得るための制約付きの推定について検討する。2つ目は、提案した方法およびモデルの実データへの応用である。特に、モデルの説明性や解釈性の問題だけでなく、予測性能が著しく低下しないかを検証する必要がある。3つ目は、これらの成果をまとめて論文にし、国際会議での報告や国際誌への投稿を目指すことである。
|
次年度使用額が生じた理由 |
備品の購入費用が予定よりもやや下回ったため。次年度の物品購入もしくは調査費用に充てる予定である。
|