研究概要 |
本研究では,ウェブ上で収集可能な言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間にどのような違いがあるのかを発見する過程を支援するテキストマイニング技術について研究を行った.平成22年度は,以下の研究を行った. (1)特定トピックに関して詳細な記述を含むブログ記事集合に対して,特定トピックにおける詳細な話題・関心事項をファセットとみなして,各ファセットごとにブログ記事を分類し,トピック空間・ブログ空間の集約を実現した.この枠組みにおける基的な知識源として,Wikipediaを用いた. (2)(1)の成果を多言語化し,多言語間でトピック空間の集約結果,および,ブログ空間の集約果の差異の分析を行った.トピック空間の集約結果におけるファセット一覧を比較し,異なる言語の間で共通するファセット,および,各言語特有のファセットの両方を観測した.また,それぞれのファセットに分類されるブログ記事集合の集約結果を比較し,異なる言語の間で共通する関心事項,および,各言語特有の関心事項の両方を観測した. (3)ブログにおいてアフリエイト収入を得ることを目的とするスパムブログについて,HTML構造の類似性およびアフリエイトIDという異なる二種類の手がかりの特の分析を行った.特に,既知のスパムブログに対してHTML構造が類似するブログサイトを大規模に収集することにより,既知のスパムブログに類似するスパムブログが高密度で自動収集できることを示した.また,これらの二種類の手がかりを単独で用いた場合には,それぞれの適用範囲が十分ではなく,両者の手がかりを併用する必要があることを示した.さらに,両者いずれの手がかりによっても検できないスパムブログに対して,機械学習を適用し,高適合率の検出を実現した.
|