研究課題/領域番号 |
16016288
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 東京工業大学 (2005) 国立情報学研究所 (2004) |
研究代表者 |
村田 剛志 東京工業大学, 大学院・情報理工学研究科, 助教授 (90242289)
|
研究分担者 |
山田 誠二 国立情報学研究所, 知能システム研究系, 教授 (50220380)
|
研究期間 (年度) |
2004 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
10,100千円 (直接経費: 10,100千円)
2005年度: 5,100千円 (直接経費: 5,100千円)
2004年度: 5,000千円 (直接経費: 5,000千円)
|
キーワード | 人工知能 / インターネット高度化 / 機械学習 / ユーザコミュニティ / Web視聴率データ / ディレクトリ・情報検索 / Webマイニング / コミュニティ |
研究概要 |
本研究課題では(1)ユーザコミュニティの発見システムの構築(2)ユーザコミュニティの構造のモデル化の二つを目標としている。平成17年度においては、(1)への取り組みとしてユーザの閲覧履歴を俯瞰するためのシステム構築を行なった。具体的な手法として、ユーザのWeb閲覧履歴とその周辺のグラフ構造を視覚化するTopic Mapの抽出を行なった。まずユーザのWeb閲覧履歴とその周辺のWebページを収集した後に、Webのリンク構造を残したままクラスタリングを行なうことでTopic Mapの抽出を行なう。クラスタリングは、リンクの距離が一定値以下のページ間で行なっている。リンクを3種類(up/down、cross、out)に分類し重み付けを行い、クラスタ間の類似度としては、コンテンツ(キーワードベクトル間のコサイン)と、リンク関係(リンクの種類と階層の差)との線形和を用いている。このような手法に基づいて実際に視覚化を行なったところ、実際に閲覧したページおよびその周辺にあるページが、ページ量も含めて視覚化することに成功している。 また(2)への取り組みとして、Webのログデータから得られるグラフ構造をもとに、ユーザの関心サイト集合を抽出し視覚化する手法を考案し実装を行なった。対象とするログデータとして、クライアント側から得られるWeb視聴率データを用いた。このデータには、ユーザが訪問したサイトおよび検索で入力したキーワードが含まれている。特定のユーザのWeb視聴率データから、サイトやキーワードを頂点とし、時間的な前後関係を辺としたグラフ(サイト・キーワードグラフ)を生成する。このサイト・キーワードグラフから中心的な部分グラフを抽出することで、対象ユーザの関心を見出すことができる。2004年12月の1ヶ月間における8,000人以上のユーザについてWeb視聴率データを用いて実験を行ったところ、もとのサイト・キーワードグラフの30パーセント程度の中心的な部分グラフを抽出し視覚化することができた。また。PageRankによるランキング上位の頂点数を用いて、抽出された部分グラフの評価も行った。
|