研究課題/領域番号 |
16016204
|
研究機関 | 東京工業大学 |
研究代表者 |
寺野 隆雄 東京工業大学, 大学院・総合理工学研究科, 教授 (20227523)
|
研究分担者 |
津田 和彦 筑波大学, 大学院・ビジネス科学研究科, 助教授 (50302378)
吉田 健一 筑波大学, 大学院・ビジネス科学研究科, 教授 (40344858)
|
キーワード | Webマイニング / リコメンダーシステム / E・コマース / コンテンツ分析 / 学習分類子システム / 情報圧縮アルゴリズム / データマイニング / プッシュ型サービス |
研究概要 |
多様なWEBコンテンツから情報を抽出する利用者の知的活動を支援する事を目的として、本年度は、(1)2部グラフの分解による階層クラスタリングとその要約システムへの適用研究、(2)テキストマイニング技術を用いた自由記述データからの顧客満足度の抽出研究、(3)WEBデータ向きデータマイニング技術開発、の3つのサブテーマを設定し研究を行った。 テーマ(1)については、web掲示板のようなある程度興味の範囲が絞られた対象に関する情報抽出と、その要約に関する研究を実施した。これは複数文書を要約し、その結果として可視化情報とテキスト情報を生成するものである。基本的なアルゴリズムは、2部グラフのDM分解を繰り返し適用することで階層化クラスタを得るものである。 テーマ(2)については、製品名などの固有名詞から当該製品に対する書き込み部分を抽出する技術、書き込みの語尾表現から書き込み内容を1 要望、2 質問、3 問題、4 評価の4つにクラスタリングする技術、更に3の問題については、感情表現を抽出し、顧客の「怒り」の度合いを測定する手法の研究を実施した。 テーマ(3)については、携帯電話メイルのスパム対策技術として実用化の目処がついた。本手法は、メールの内容を特徴ベクトル化し、その文章密度を利用することによって、プライバシが自然に保護された教師なし学習の枠組の中で、人手による管理の手間をかけずに、高精度でスパムメールを検出することができ、また、PC上で極めて高速にメールを処理することが可能である
|