研究概要 |
我々は,情報源としてblogに着目し,インターネット上の一般大衆の発信している意見を網羅的に収集,分析し,それをインターネット上のユーザに提供するシステムblogWatcherを研究開発している(http://blogwatcher.pi.titech.ac.jp).このようなblog上の意見収集・分析エンジンは,マーケティング等多くの分野で関心を持たれているが,母集団の不透明性,代表性の欠落等の理由により,現状では,分析結果の信頼性への疑問が払拭できていない.一方で,従来から行われている伝統的なアンケート等での意見分析では,原則バイアスのないようなサンプリングが普通であり,さらに,アンケート回答者の属性(たとえば,性別,年齢)等を別途情報として利用することにより,詳細な意見分析が可能となっている.そこで,本研究課題では,最終的な目標として, ・収集したblogからのサンプリングを実現することにより,代表性のある母集団での意見分析を可能にする, ・従来のアンケートと同程度の詳細さで,blog上での意見分析を実現する ことを目指し,blogの書き手がどういう人間であるかを推定する技術を開発する. 18年度では,推定するべき個人属性として,性別を取り上げ,blogの書き手の性別を推定する技術を開発した.さらに,blogの書き手の個人属性を推定する際には,書き手の日々の行動が重要な手がかりとなり得ることに着目し,blogテキスト中の「行動」を表現する文を抽出し,その行動が1日のうちどの時間帯(朝,昼,夕,夜)に行なわれたものであるかを推定する技術を開発した.今後この行動マイニング技術をblogの書き手の個人属性推定に利用していく予定である. blogWatcherでは,開発したblogの書き手の性別推定の機能を実装することで,性別による分類ごとに分析結果を示すことを行なっている.性別の違いによって分析結果が異なっており,性別推定技術により,従来より詳細な分析が実現できることが確認できる.今後年齢層,性格等,さまざまな個人属性推定技術を開発することにより,より多面的な分析が可能になると考える. 性別の推定では,日本語における男女の話し言葉の性質の違いを考慮した素性を利用することで,男性クラスで精度0.91,女性クラスで精度0.95と,高い精度を得た.blogテキスト中のイベントの生起時間帯判定では,イベントの生起時間帯の学習時に時間帯を連想させる語を同時に取得可能な学習アリゴリズムを用いることによって,86.4%の正解率を達成した.
|