2014 Fiscal Year Annual Research Report
大規模データ時代のビジネスアナリティクス手法に関する基礎的研究
Project/Area Number |
26282090
|
Research Institution | Waseda University |
Principal Investigator |
後藤 正幸 早稲田大学, 理工学術院, 教授 (40287967)
|
Co-Investigator(Kenkyū-buntansha) |
三川 健太 早稲田大学, 理工学術院, 助手 (40707733)
平澤 茂一 早稲田大学, 理工学術院, 名誉教授 (30147946)
須子 統太 早稲田大学, 社会科学総合学術院, 講師 (40409660)
堀井 俊佑 早稲田大学, 付置研究所, 助教 (00552150)
小林 学 湘南工科大学, 工学部, 教授 (80308204)
鈴木 誠 湘南工科大学, 工学部, 教授 (80339796)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | ビジネスアナリティクス / 大規模データ / ビッグデータ / マーケティングモデル / 経営情報分析 / レコメンデーション / 経営工学 / 統計モデル |
Outline of Annual Research Achievements |
本研究では,1)EC サイトのデータベース情報を対象とした情報分析技術の開発と応用,2)テキストデータとして蓄積されるマーケティング情報の分析技術の開発と応用,3)情報推薦のための先進的統計モデルの開発と応用,4)情報検索や情報推薦の技術を活用したWeb マーケティングモデルの理論解析,5)高次元かつ疎な大規模データを対象とした分析手法と統計モデルの開発と応用,6)プライバシー保護データ解析の方法論の開発と評価というサブ研究テーマを掲げており,平成26年度はこれらを並列して研究を進行するとすると共に定期的に成果交流を推し進めた. 特に,1)~3)については深く研究を推し進め,いくつかの研究成果を得るに至っている。1)については,共同研究先の実企業のインターネットサイトに蓄積される数十万人規模の行動履歴データを対象とした実証的研究の他,いくつかのECサイトの購買履歴・閲覧履歴データを入手して,その分析技法の開発に当たった.とくに新たな潜在クラスモデルを提案し,様々な嗜好を持つユーザが混在する場合の大規模データに適用可能な統計モデルを開発した.2)については,新たに未観測のクラスが出現するケースを想定したテキストデータの自動分類手法について検討を行い,潜在クラスモデルと半教師あり学習に基づく方法を開発し,実際のテキストデータへの適用を通じてその評価を行った.また,企業に日々蓄積される大規模テキストデータの分析手法についても検討を行い,人手で分類整理が困難な規模のデータを半自動で分析するための方法論を提案している.3)についても,閲覧履歴と購買履歴を同時に用いて学習を行う新たな統計モデルを開発し,実データへの適用を通じて,その有効性を検討した.4)~6)についても個別の成果を得ており,順次,国内学会や国際会議で発表予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,研究代表者,並びに研究分担者の他,研究代表者の研究室に所属する助手,共同研究者,大学院生メンバー15名,学部学生10名が各研究チームを組み,それぞれのサブ研究テーマについて日々検討を進めている.その成果は,国内学会における研究発表,国際会議における研究発表の他,学術誌の査読付き論文の掲載も順調に増えていることから,当初の予定通り,順調に進展していると判断できる. 本研究では,①大規模データ時代のビジネスアナリティクスを強力に支援するための情報分析手法の開発と応用,並びに②情報技術と統計的学習理論の知見を最大限に活用したWeb マーケティング技術の開発と理論的評価を行うことを目的としており,平成26年度は新たに入手した複数の実企業の購買履歴・閲覧履歴データに対して研究を深め,いくつかの興味深いモデルを提案するに至っている.これらのモデルは,数十万以上のユーザ,かつ数十万~数百万以上のアイテムを想定した統計モデルとなっており,実データへの適用による実証的な検証も踏まえて,その有効性を評価している.特に,潜在クラスモデルをベースとしつつ,多様な大規模データの特性に合致した新たな統計モデルを様々な切り口から提案し,有効性を検証している.これらの研究成果は,査読付き学術論文としても3件が掲載済みに加え,現時点で論文2件が掲載決定となっている.また,国際会議においてもIEEE SMC等の国際会議にて成果の発表を行い,合計で11件の国際会議発表を行った.国内学会での成果発表も20件以上の発表を蓄積している.現在も,これらの研究成果を学術論文として投稿準備を進めており,研究の進捗状況は概ね順調である.
|
Strategy for Future Research Activity |
平成27年度も引き続き,1)EC サイトのデータベース情報を対象とした情報分析技術の開発と応用,2)テキストデータとして蓄積されるマーケティング情報の分析技術の開発と応用,3)情報推薦のための先進的統計モデルの開発と応用,の3つのサブ研究テーマに重点を置きつつ,4)情報検索や情報推薦の技術を活用したWeb マーケティングモデルの理論解析,5)高次元かつ疎な大規模データを対象とした分析手法と統計モデルの開発と応用,6)プライバシー保護データ解析の方法論の開発と評価,についても検討を進める予定である.1)~3)のテーマについては,すでに研究成果が出始めており,今年度もそれらの成果をさらに発展させると共に,積極的に学会発表や論文投稿を行い,研究チーム外からの第三者的な視点での評価を受けることで,さらなる研究成果の発展を目指す.また,4)のテーマに掲げた理論解析についても研究を進め,すでに得られている成果を精密化して理論構築を試みる.一方,大規模データを取り扱う際には,5)のテーマに掲げた高次元かつ疎なデータの取り扱いは極めて重要であり,そのようなデータを分析するための統計モデルについて検討を進める予定である.これまではKL展開のような次元縮約や潜在クラスモデルによるモデル化といったアプローチが取られてきているが,本研究ではこれらをさらに発展させた新たな統計モデルの開発に取り組みたい.6)に示したプライバシー保護データ解析については,分散処理型の回帰分析モデルを提案し,平成26年度に論文として掲載されている.このモデルと分散処理アルゴリズムについて,さらに発展させることを目指す. 以上の基礎的研究は,常に実問題を解くためのベースであることを意識し,共同研究先の実企業からデータを提供して頂き,引き続き,現場で有効となる理論・モデルの構築を目指す予定である.
|
Causes of Carryover |
本研究課題においては,複雑で様々なデータベースに保存されたデータを統計モデルが学習可能な形に整形し,データ構造を整えるための作業に多くのコストがかかる.このことは,平成27年度以降も同様であり,十分な研究補助謝金を残しておかない場合,平成27年,28年の研究の実作業に支障をきたすと考えられる.本研究では,物品や旅費のための費用があったとしても,毎年,安定して十分な人件費・謝金を確保できない場合には,現在得られている成果よりさらに進んだ研究を進めることが極めて困難になってしまう. 以上の判断から,初年度に全額を使い切ることをせず,基金助成金の一部を次年度以降に使用するものとした.また,平成26年度は研究期間の初年度であり,研究成果発表のための旅費や論文掲載料についても次年度以降にさらに増える見込みであることから,計画的な研究費使用に徹した.
|
Expenditure Plan for Carryover Budget |
本研究では,大規模であり,かつ多様性を持つデータを対象としたアナリティクス手法の体系化を目指しており,平成27年度においても,引き続き様々な企業の実データを取り扱う.そのため,実務で有用となる統計モデルとアナリティクスの方法論構築を目指すため,必要データの抽出やデータ構造の整形,様々なパラメータに対する反復実験,シミュレーションのためのコーディングといった研究補助業務に対する謝金として利用する計画である.平成26年度においても,相当時間数の研究補助業務を委託し,データ整形と分析,並びにシミュレーション実験のためのコーディングと実験業務を行い,人件費・謝金が発生したが,平成27年度も同レベルの人件費・謝金が発生する見込みである. また,研究成果発表のための旅費,学術論文をまとめるための論文掲載料についても支出が増えることが予想されるため,これらの予算に充てる計画である.
|
Research Products
(35 results)