2014 Fiscal Year Research-status Report
大規模ログデータを用いたユーザ行動分析のための次世代パターン認識手法の開発と応用
Project/Area Number |
26560167
|
Research Institution | Waseda University |
Principal Investigator |
後藤 正幸 早稲田大学, 理工学術院, 教授 (40287967)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 大規模データ / 大規模ログデータ / パターン認識 / 機械学習 / ユーザ行動 / 潜在クラスモデル / テキストマイニング / 時系列分析 |
Outline of Annual Research Achievements |
本研究では,ECサイト等のデータベースに記録される大規模ログデータに基づき,ユーザ行動の分析を分析して,経営判断やマーケティングツールとして活用するための次世代パターン認識手法の開発と応用方法の確立を目指しており,平成26年度は,これまでの研究成果の評価に加え,新たな着想に基づく,パターン認識手法の検討を行った.ベースとなるパターン認識のための統計モデルとして,その有用性が広く示されている潜在クラスモデルのフレームワークを考えつつ,これまでにない発想のモデルやパターン分析手法の開発を検討し,いくつかの興味深い知見を得ている. 特に,ベクトル空間モデルで表現すると高次元スパースになるユーザの行動履歴データに対し,ユーザの嗜好の時間的推移を捉えるモデルの構築に着手し,共同研究先の実企業のデータを用いてその有効性の検証を行った.その結果,ユーザの嗜好の時間的推移について,潜在クラスへの所属確率の推移によって傾向把握が可能であることが示唆された.これにより,従来よりも精度の高い予測が可能であることも明らかとなった.また,ECサイトにおけるユーザの行動履歴には,商品アイテムの購買履歴の他,商品説明ページの閲覧履歴やアイテム検索履歴など,多種多様なデータが存在する.本研究では,そのような多様なデータを有効利用するための統計モデルを提案し,実データを用いた実証的な研究によってその有効性を確認した.一般に,数十万点以上の種類が存在する商品アイテムのうち,一人のユーザが購入するアイテムは相対的に少数である一方,様々な商品アイテムを閲覧し,比較検討した履歴データが多く存在する.これらの閲覧履歴も,そのユーザの嗜好を反映していると考えられることから,この豊富に存在する閲覧履歴を表現する新たなモデルの有効性を示している. これらの研究成果は,平成27年度の国内学会,並びに国際会議にて発表の予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,ECサイト等のデータベースに記録される大規模ログデータに基づき,ユーザ行動の分析を分析して,経営判断やマーケティングツールとして活用するための次世代パターン認識手法の開発と応用を目的とし,長期的な視野に立ちつつ,新しいユーザ行動パターンの分析手法の開発を行っている.本研究では,ユーザ行動履歴のパターンを分析するための,次世代パターン認識手法の開発を目指しており,初年度はそのための様々な検討を行った.実際に,共同研究先企業の実データを用い,特徴的なユーザ行動のモデル化やユーザの嗜好の時間的変化をモデル化するための方法を提案し,その有効性を実データによって実証的に評価している.また,ECサイトに蓄積される,購買履歴データ以外の様々な行動履歴を合わせてモデル化することが可能な新たな潜在クラスモデルを提案し,実データを用いてその有効性を検証している.一般に,ビッグデータは,Volume(容量の大きさ),Variety(多様性),Velocity(スピード・頻度)を有するものとして定義されているが,本研究ではその多様な構造を持つデータをまとめて表現する統計モデルの開発を目指しており,その第一歩である成果を得ることができた. これらの成果は,平成27年度の国会学会において順次発表を行い,専門家からのコメントを反映し,研究内容を発展させる予定である.さらに,本研究の内容をさらに発展させると共に,様々な実データに適用することでその有効性を確認し,その結果を国際会議においても成果の報告を行う予定である. 以上のように,ECサイト等におけるユーザの行動パターンの分析を行うためのパターン認識手法の確立に向け,初年度はその研究基盤を固めることができたと考えている.
|
Strategy for Future Research Activity |
本研究では,ECサイト等のデータベースに記録される大規模ログデータに基づき,ユーザ行動の分析を分析して,経営判断やマーケティングツールとして活用するための次世代パターン認識手法の開発と応用を目的としており,すでに基本的なアイディアの具現化や実データによる評価を進行中である.ECサイト等のデータベースに記録される大規模ログデータは,商品アイテムの購買履歴に加え,個別の商品アイテムページの閲覧履歴や検索履歴など,かなり細かい行動履歴を取得することが可能となっており,どのようなデータを如何に組み合わせるべきかが明らかとなっていない.本研究では,ユーザ行動のパターンを認識するための特徴空間の構成法について,さらに検討を行う予定である.現在は,ユーザの商品アイテムの購買履歴に加え,個々の商品アイテムページの閲覧履歴を合わせて学習データとして用いることにより,より推定精度の高いモデルが構築できることが明らかとなっている.今後は,さらに多種多様なデータを統合することで,さらに有用なモデルが構築できるか否かについて,研究を深める予定である. 一方で,本研究では提案する方法論は,広く適用可能な一般性を有することを期待しており,そのための評価も必要である.そこで,検証用の実データをさらに拡充し,様々な実データを用いて提案するモデルや方法論の評価を行う予定である.具体的には,共同研究先の実企業を新たに増やし,サブの研究プロジェクトを立ち上げると共に,相互の研究成果の共有によってさらなる提案モデルの発展を目指す.本研究で扱っているような,インターネットサイトにおけるユーザの行動パターン分析に関するニーズは年々高まっており,このような経営課題を有する企業との共同研究を推し進める.その結果,人間の高度な知的活動と融合し,高度な経営判断や意思決定を行うための次世代パターン認識技術の構築を目指す予定である.
|
Causes of Carryover |
本研究では,平成26年度は,ほぼ予算計画通りの支出となっており,その意味では,当初に想定した研究活動と研究費の支出が行われていると考えている.次年度利用額として4,468円が生じているが,これは平成26年度の研究活動で予算を利用した結果として残った残額である. この残額については,全体の予算規模からすれば残差的な余りであるが,平成26年度末に検討した結果,当該年度中に無理に使い切らずに,翌年度に有効活用する方が望ましいという判断に至り,次年度使用額として残すこととした.平成27年度の予算に組み込んで適正に使用する予定である.
|
Expenditure Plan for Carryover Budget |
本研究では,実際のECサイトにおけるユーザの行動履歴データを扱っている.一般に,ユーザのあるページにおける行動履歴は,非常に多様性が高く,どのように特徴空間を構成すべきかについても理論が固められてはいない.本研究では,共同研究先企業が保有する膨大な実データを対象とし,次世代パターン認識技術の開発を目指している.そのためにはまず,整形されていない多種多様な履歴データから必要な情報を抽出し,分析可能な形に成型する必要がある.このような生データの整理や構造化のための作業を,研究補助として委託したい.平成26年度に生じた残額についても,平成27年度に使用する謝金に組み込み,研究補助者への業務委託を中心に有効利用することを予定している.
|