研究概要 |
本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間にどのような違いがあるのかを発見する過程を支援するテキストマイニング技術について研究を行った.平成20年度は,ウェブ上の多言語ニュース・ブログ等の各ジャンルにおいて,各トピックがどのような観点で強く関心を持たれているか,どのような意見を持たれているかを特定し,ジャンル間や言語間の差異の発見支援を行う手法について,以下の研究を行った。 (1)ウェブ上のテキストのジャンルとして,主に事実を報道するニュースと,主として一般利用者の意見や経験を伝えるブログとを対比的にとりあげ,ニュース,ブログ間で関連する項目や記述を相補的に検索する方式を実現した.これによって,ニュース・ブログという異ジャンル問で,観点の差異や意見の有無を発見する過程の支援が可能となった。 (2)ある同一のトピックについてまとまった規模の記述が書かれたブログサイトを,日英各言語について検索し,その記述内容を二言語間で対照分析する方式を実現した.これによって,同一のトピックが対象の場合でも,ブログ特有の個人レベルの関心が,日英ブログの間で異なっている様子や個人が持つ意見の分布が日英ブログの間で異なっている様子が容易に観測可能となった。 (3)機械学習の枠組みにより,ブログにおけるトピック分析の障害となるスパムブログ除去方式を実現した.また,能動学習の枠組みにより,年とともに変貌するスパムブログのうちの重要変化分を効率よく同定する方式を実現した。
|