本研究では,SNS(ソーシャルネットワーキングサービス)上で展開される大規模社会ネットワークを対象に,そこから部分的に重複し得る複数のコミュニティ(多重コミュニティ)を抽出し,その特徴を分析する技術を確立することを目的とした.最終年度では,これまでと同様にTwitterを対象に,コンテンツに基づいた情報伝搬系列の抽出結果に比較的短い系列が多くなるという前年度に残された問題に対して,潜在トピック推定技術であるLDA(Latent Dirichlet Allocation)を適用し,一定の改善効果を確認した.また,これまでに実装した手法により抽出されたコミュニティ内のツイートに対して同様にLDAを適用することで,コミュニティにおける複数の興味対象を特徴づける特徴ベクトルを生成し,「政治」などの興味対象が実際に解釈可能な特徴ベクトルが生成可能であることを確認した.いずれにおいても,LDAの適用対象となる単語の選定が重要となり,その適用過程から,いわゆる崩れた表記が多用されるSNS上のコンテンツから意味のある単語群を選定するための多くの知見を得ることができた. 以上,研究期間を通して,投稿内容に基づいたSNSからの情報伝搬系列・情報伝搬ネットワークの自動抽出(タグ情報を用いた抽出法,タグ情報によらないコンテンツに基づいた抽出法),そのグラフマイニング手法との組合せによる多重コミュニティの抽出と特徴分析,および抽出した情報伝搬過程の変化点検出などによる特徴分析を行った.インターネット上の社会ネットワークはいまなお増大しつつあり,本研究で得られたこれらの技術は,その巨大なネットワークを分析のための重要な基盤技術となるものである.
|