2005 Fiscal Year Annual Research Report
Project/Area Number |
16016288
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
村田 剛志 東京工業大学, 大学院・情報理工学研究科, 助教授 (90242289)
|
Co-Investigator(Kenkyū-buntansha) |
山田 誠二 国立情報学研究所, 知能システム研究系, 教授 (50220380)
|
Keywords | 人工知能 / インターネット高度化 / 機械学習 / ユーザコミュニティ / Web視聴率データ |
Research Abstract |
本研究課題では(1)ユーザコミュニティの発見システムの構築(2)ユーザコミュニティの構造のモデル化の二つを目標としている。平成17年度においては、(1)への取り組みとしてユーザの閲覧履歴を俯瞰するためのシステム構築を行なった。具体的な手法として、ユーザのWeb閲覧履歴とその周辺のグラフ構造を視覚化するTopic Mapの抽出を行なった。まずユーザのWeb閲覧履歴とその周辺のWebページを収集した後に、Webのリンク構造を残したままクラスタリングを行なうことでTopic Mapの抽出を行なう。クラスタリングは、リンクの距離が一定値以下のページ間で行なっている。リンクを3種類(up/down、cross、out)に分類し重み付けを行い、クラスタ間の類似度としては、コンテンツ(キーワードベクトル間のコサイン)と、リンク関係(リンクの種類と階層の差)との線形和を用いている。このような手法に基づいて実際に視覚化を行なったところ、実際に閲覧したページおよびその周辺にあるページが、ページ量も含めて視覚化することに成功している。 また(2)への取り組みとして、Webのログデータから得られるグラフ構造をもとに、ユーザの関心サイト集合を抽出し視覚化する手法を考案し実装を行なった。対象とするログデータとして、クライアント側から得られるWeb視聴率データを用いた。このデータには、ユーザが訪問したサイトおよび検索で入力したキーワードが含まれている。特定のユーザのWeb視聴率データから、サイトやキーワードを頂点とし、時間的な前後関係を辺としたグラフ(サイト・キーワードグラフ)を生成する。このサイト・キーワードグラフから中心的な部分グラフを抽出することで、対象ユーザの関心を見出すことができる。2004年12月の1ヶ月間における8,000人以上のユーザについてWeb視聴率データを用いて実験を行ったところ、もとのサイト・キーワードグラフの30パーセント程度の中心的な部分グラフを抽出し視覚化することができた。また。PageRankによるランキング上位の頂点数を用いて、抽出された部分グラフの評価も行った。
|