研究課題/領域番号 |
19K13822
|
研究機関 | 京都大学 |
研究代表者 |
阿部 寛康 京都大学, 医学研究科, 助教 (40807963)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 非負値行列因子分解 / 零過剰負の二項分布 / 基底数選択 / ウェブサイト閲覧履歴 / 変分ベイズ法 / ノンパラメトリックベイズ法 / 棒折り過程 |
研究実績の概要 |
本年度は,主に2つのことに取り組んだ.一つ目は,昨年度に引き続き,零過剰データに対応した非負値行列因子分解(零過剰NMF)の開発のための各種検討を実施したことである.昨年度,零過剰負の二項分布をベースとしたNMFモデル(ZINBNMF)を変分ベイズ法により推定することで基底数選択を試みることについて,数値実験の結果が芳しくないことを確認したが,今年度,引き続き検討した結果,実験の条件設定に問題があることがわかり,より現実に即した条件下においては,零過剰でかつ過分散なデータに対してはZINBNMFが他の既存手法に比べて比較的良い結果を示すことを確認した.これを確認後,ショッピングウェブサイトの閲覧履歴データに対してZINBNMFを適用した結果,既存手法よりも解釈が現実的に受け入れやすい結果を得ることを確認した.数値実験結果は2件の国内学会で発表し、実データ解析結果はデータ提供元である企業へ報告済みである。二つ目は、ノンパラメトリックベイズモデル(NPMBM)に拡張したNMFモデルの検討である。これは先述のNMFモデルが機能しない懸念から、代替手法として検討したものある。先述のNMFモデルでは単純にデータ行列の期待値がある基底数をもつ2つの因子行列の積で表される、というものであるが、NPMBMでは基底数自体に棒折り過程という生成過程を導入している点が異なる。これにより、最大の基底数を入力する必要はあるものの、1度の推定アルゴリズムで基底数をも推定でき、先述のNMFモデルよりも低い計算コストで基底数選択できる利点がある。しかしながら、推定可能性を検討したところ、因子行列に直交制約を設けたNMFモデルの場合にのみ推定が可能であることがわかった。これは、通常のNMFに比べて推定される基底行列の柔軟性が失われることを意味する。この研究は1件の国内学会で報告済みである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度は基盤となる手法であるZINBNMFを変分ベイズ法で推定する方法についての数値実験がうまく機能せず、開発手法の見直しが必要と考えられたが、その原因を特定することができ、ZINBNMFが既存手法に比べて特に基底数選択の点において良いことを示すことができた。さらに、実データを用いた解析による開発手法の検討も実施することができ、基盤手法の検討作業はほぼ完了した。残る課題は「商品属性情報の組み込み」と「動的NMFによる外部環境の組み込み」である。後者についてはやや複雑なモデル構築が必要となるため、組み込みの可能性自体を深く検討していく必要があるが、前者の応用は基盤手法が確定していれば比較的容易に拡張は可能であり、すぐに検討できる状況である。Covid19の影響により想定よりも研究発表の機会が少なくなってしまっているものの、研究内容の進捗状況で言えば、本研究はおおむね順調に進展しているといえる。
|
今後の研究の推進方策 |
来年度は2つのことに取り組む.ひとつは「商品属性情報の組み込み」である.今年度実施した実データ解析において使用したショッピングウェブサイトのページ閲覧カウントデータでは,商品単位でのカウントでは行列が極めてスパースなものとなり,提案手法はおろか,既存手法でのベイジアンNMFでもうまく解析が実行できないことが判明したため,商品分類単位で閲覧回数をカウントしたデータで分析を実行した.この場合,各商品分類に対して何らかの属性情報が必要となる.このデータは粒度レベルの異なるいくつかの分類基準があり,今回扱った商品分類は,粒度が2番目に粗いレベルであるので,粒度の粗さが最大である,もう1段階上の商品分類情報を属性情報として用いることを検討する.このようにすることでより広い概念で商品閲覧パターンでの解釈も可能になる.二つ目に取り組むのは「動的NMFへの拡張」である.これはNMFに適用するデータに時間の配列を加えた三相データ必要があるが,得られているデータは期間が1年と少ないため,時間の配列を加えると超スパースとなってしまい,工夫が必要となる.対応策としては,新たにデータを追加することがまず考えられるが,配列からユーザを除いた時間と商品分類の行列でモデルを構築するという妥協策も必要となる可能性もある.これら2つの取り組みについては,これまで同様,数値シミュレーションによるモデルの妥当性の確認と,実データへの応用による実用性の確認を実施していく.
|
次年度使用額が生じた理由 |
次年度使用額が生じた理由としては大きく2つ挙げられる.ひとつは昨年度の研究の進捗の遅れにより,高性能PCの購入,あるいは既存PCの性能強化に至らなかった点である.現時点では実データ解析までの実施を完了しているため,次年度においてPCの購入,あるいは既存PCの性能強化を図り,商品属性の取り込みや動的NMFへの拡張等の確認のためのシミュレーション研究を推進する.2つ目の理由は,covid19の影響により出張が困難となり,研究発表の場が少なかったこと,あるいはオンラインでの発表となったことにより,旅費での経費が想定よりも少なくなったことである.covid19に対応せざるを得ない状況は続くことが予想されるため,旅費が少ない傾向は来年度も続くと見られる.そこで,次年度では,前述した計算機環境の整備に加えて,実データの購入や,論文投稿にかかる費用,オンラインでの各種学会での発表を積極的に実施していく予定である.
|