2008 Fiscal Year Annual Research Report
WWWにおける話題の分岐収束過程の抽出と可視化に関する研究
Project/Area Number |
19700143
|
Research Institution | Kyoto University |
Principal Investigator |
森 幹彦 Kyoto University, 学術情報メディアセンター, 助教 (70362423)
|
Keywords | 時系列可視化 / クラスタリング |
Research Abstract |
ある話題に関して調べるとき, その話題に途中から興味を持った者にとって, 大きな事件の全体像を掴むことは難しく, 事件の初期から注目している者にとっても, 後から系統的に思い起こすのが困難である. そこで本研究課題では, 話題の時間的な変化に留意して話題の分岐と収束が計算可能なWeb文書群における話題の遷移モデルの構築と, それを用いた話題の遷移の可視化法の開発を行った. 平成19年度に構築したモデルは, ニュース記事をクラスタリングしてそのクラスタを話題と扱っていたが, 記事群によってはクラスタの粒度が極端に細かくなることがあった. そこで20年度では, クラスタリングのアルゴリズムを改良し, 記事が追加されるたびに最適なクラスタを選択するとともに, 再クラスタリングを行うことで適切なクラスタを生成する手法を考案し実現した. これにより, より多くの記事群に対して話題の分岐や収束を表現できた. この再クラスタリング法は, 併合と分割の対象となるクラスタが新規の記事の周辺だけに限定されるため, 極端なクラスタ内の記事の変化が起きず時系列で追跡するのに適している. ニュース記事は多次元のベクトル空間に存在するため, 利用者が閲覧可能になるため2次元平面への射影が必要である. さらに, 時間を追って話題を追いかけられるようにするためには, クラスタの時間変化が表現される必要がある. そこで, 一定期間に区切ったクラスタリングの結果をもとに, 隣接する期間の間に分割・併合されたクラスタ同士を接続することで可視化法を開発して提案した. この可視化法により, 話題の分岐と収束を表現できて話題の追跡が容易になった.
|
Research Products
(2 results)