2006 Fiscal Year Annual Research Report
Project/Area Number |
16680008
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
村田 剛志 東京工業大学, 大学院情報理工学研究科, 助教授 (90242289)
|
Keywords | Webマイニング / ハイパーリンク / 視聴行動ローデータ / PageRank / 視覚化 |
Research Abstract |
本研究代表者はハイパーリンク等のグラフ構造に基づいてWebページ等の対象間の関連性を見出すWebマイニングの研究を進めてきている。Webページの多くは、関連するページへのハイパーリンクを有しており、Webコミュニティと呼ばれるグラフ構造を構成している。このような密な部分構造についての知見を得ることは、Webから効率的な情報収集をする上で重要である。 本年度においては、ユーザの振る舞いをログデータから理解するための試みとして、ログデータから得られるグラフ構造をもとに、関心サイト集合を抽出し視覚化する手法を考案し実験を行なった。対象とするログデータとして、クライアント側から得られるインターネット視聴行動のローデータを用いた。このデータには、ユーザが訪問したサイトおよび検索で入力したキーワードが含まれている。特定のユーザのローデータから、サイトやキーワードを頂点とし、時間的な前後関係を辺としたグラフ(サイト・キーワードグラフ)を生成した。このサイト・キーワードグラフから中心的な部分グラフを抽出することで、対象ユーザの関心を見出すことができる。2004年12月の1ヶ月間における8,000人以上のユーザについてローデータを用いて実験を行ったところ、もとのサイト・キーワードグラフの30パーセント程度の中心的な部分グラフを抽出した。それをGraphvizによって視覚化することで、抽出された部分グラフの分析も行った。ハイパーリンクによって結合したWebページのグラフ構造に対して適用するランキングやコミュニティ発見の手法は、主としてWeb構造マイニングの手法であるが、ログデータの分析に対してもそのような手法が有効であることを示すことができた。
|