2017 Fiscal Year Research-status Report
レビューデータを用いたマーケット・セグメンテーション手法の開発
Project/Area Number |
17K04029
|
Research Institution | Okayama University of Science |
Principal Investigator |
水谷 直樹 岡山理科大学, 経営学部, 准教授 (30330533)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | マーケット・セグメンテーション / レビュー情報 / 自然言語処理 / スクレイピング |
Outline of Annual Research Achievements |
本研究の目的は、商品やサービスに対するレビュー情報を使って、消費者の嗜好の多様性を反映した精度の高いマーケット・セグメンテーション手法を確立することにある。本研究では、セグメンテーションのためのデータとして、商品・サービスに対して消費者が Web 上に投稿した膨大なレビュー情報を活用することを特徴とする。 投稿者個人の嗜好を分析し分類するには、相当数のレビューデータが必要となる。収集には多大な時間が必要となることがわかっている。それをふまえ、投稿を100件以上行った投稿者が1000名以上になるところまでレビューデータを順次収集する予定であり、レビュー件数にして 100 万件の収集が必要と予測している。この作業は時間がかかり、平成29年度だけでなく、平成30年度中頃までの期間を予定している。 これまでの研究実績において、いかなるレビュー対象に対しても同一の評点をつける投稿者の存在や採点基準が投稿者によって大きく異なることを確認している。このように、精度の高いマーケット・セグメンテーションを得るのに不適当なレビューデータが混入しているので、それらデータを発見して、分析対象から外す、あるいは値を補正することが肝要である。これまでの研究成果や最新の研究動向をフォローしながら、フィルタリング手法の提案を行なう。グループ内で同質、グループ間で異質になるようなレビュー行動特性を発見して、 ビジネス上意味のあるグループ分けを行なう手法を提案することであるが、その目的にそぐわないデータを排除することがレビューデータ信頼性検証を行なう意義である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成29年度の主たる課題は、レビューデータの収集プログラムの作成と収集作業である。 レビューデータの収集は、インターネット上の複数のレビューサイトを対象に網羅的に収集することを目標にする。 100 件以上の投稿数がある投稿者 ID を千人規模で収集する必要があると考えており、結果的に1サイトあたり 100 万件 規模のデータ収集を想定している。 データ入手先として、 製品・サービスについてレビュー投稿できるサイトとしてレビューサイト 価格.com、同様のレビューサービスを提供するポータルサイト Yahoo! を選定した。収集方法は、時間と労力が必要となるが確実にデータを得られるウェブスクレイピング(コンピュータ・プログラムによってウェブサイトから情報を抽出する手法)によるものとし、プログラム作成を完了し、複数の PC を用いて 24 時間体制でデータを収集している。データの収集は、平成 30 年度中盤まで継続して行なう。 また、本研究では、グループ内で同質、グループ間で異質になるようなレビュー行動特性を発見して、ビジネス上意味のあるグループ分けを行なう手法を提案するが、その目的にそぐわないデータを排除することが必要である。その方法について現在検討しており、平成30年度中頃を目処にアルゴリズム化を行う予定である。
|
Strategy for Future Research Activity |
平成29年度から行っているレビューデータの収集は順調に進んでおり、これを継続して行って、 平成30年度中頃までには完了する予定である。さらに、個人からの投稿数が圧倒的に多い、いわゆるつぶやきサイトからのデータ収集を検討しているが、ウェブスクレイピングにおいて技術的な課題を抱えており、実施可能性を見極めているところである。 一方、収集したデータから、研究目的にそぐわないデータを排除する方策について、レビューデータに対して分散分析を適用して、統計的に意味のないデータを省く方法について検討する。その中で、投稿者ごとのレビュー投稿特性が判明するので、レビュー投稿行為について投稿者の行動タイプ分類を行い、レビューデータの標準化手法についても提案を行なう計画である。 そして、メインの課題について、次の3つの方策を推進して研究を推進する。(1) レビューデータのうち数値データに対しては、統計的手法の中から数種の手法を適用し、それらの手法を比較評価することによって最良のセグメンテーション方法を提案する。 (2) レビューデータのうちテキスト文に対しては、形態素解析を行った後の特徴単語の出現頻度情報について統計的手法および機械学習的手法を適用し、セグメンテーション方法を提案する。 (3) 数値データからのセグメンテーション結果とテキスト文からのセグメンテーション結果との整合性について考察し、両者を融合する手法を提案するするとともに、レビューとして数値データが得られない状況におけるテキスト文情報からの予測精度について考察する。
|
Causes of Carryover |
次年度使用額が6万円余り発生した。その理由は、必要機器の発売時期が年度遅くになり、機器の正確な価格が年度初めに不明であったためである。したがって、年度初めに計上した予算金額は概算となってしまい、実支出額と差が生じた。 しかし、研究の進行には支障をきたしていない。 また、次年度の使用計画としては、ソフトウェアの購入が必要となるので、それに充当する予定である。
|