2008 Fiscal Year Annual Research Report
トピックの特性を言語間で比較・対照分析する多言語ウェブテキストマイニングの研究
Project/Area Number |
20300032
|
Research Institution | University of Tsukuba |
Principal Investigator |
宇津呂 武仁 University of Tsukuba, 大学院・システム情報工学研究科, 准教授 (90263433)
|
Co-Investigator(Kenkyū-buntansha) |
藤井 敦 筑波大学, 大学院・図書館情報メディア研究科, 准教授 (30302433)
|
Keywords | ディレクトリ・情報検索 / 多言語処理 / テキストマイニング / トピック分析 / ブログ / ニュース / スパムブログ / Wikiedia |
Research Abstract |
本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間にどのような違いがあるのかを発見する過程を支援するテキストマイニング技術について研究を行った.平成20年度は,ウェブ上の多言語ニュース・ブログ等の各ジャンルにおいて,各トピックがどのような観点で強く関心を持たれているか,どのような意見を持たれているかを特定し,ジャンル間や言語間の差異の発見支援を行う手法について,以下の研究を行った。 (1)ウェブ上のテキストのジャンルとして,主に事実を報道するニュースと,主として一般利用者の意見や経験を伝えるブログとを対比的にとりあげ,ニュース,ブログ間で関連する項目や記述を相補的に検索する方式を実現した.これによって,ニュース・ブログという異ジャンル問で,観点の差異や意見の有無を発見する過程の支援が可能となった。 (2)ある同一のトピックについてまとまった規模の記述が書かれたブログサイトを,日英各言語について検索し,その記述内容を二言語間で対照分析する方式を実現した.これによって,同一のトピックが対象の場合でも,ブログ特有の個人レベルの関心が,日英ブログの間で異なっている様子や個人が持つ意見の分布が日英ブログの間で異なっている様子が容易に観測可能となった。 (3)機械学習の枠組みにより,ブログにおけるトピック分析の障害となるスパムブログ除去方式を実現した.また,能動学習の枠組みにより,年とともに変貌するスパムブログのうちの重要変化分を効率よく同定する方式を実現した。
|
Research Products
(4 results)