2010 Fiscal Year Annual Research Report

トピックの特性を言語間で比較・対照分析する多言語ウェブテキストマイニングの研究

Research Project

Project/Area Number	20300032
Research Institution	University of Tsukuba
Principal Investigator	宇津呂武仁筑波大学, 大学院・システム情報工学研究科, 准教授 (90263433)
Co-Investigator(Kenkyū-buntansha)	藤井敦東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)
Keywords	ディレクトリ・情報検索 / 多言語処理 / テキストマイニング / トピック分析 / ブログ / ニュース / スパムブログ / Wikipedia
Research Abstract	本研究では,ウェブ上で収集可能な言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間にどのような違いがあるのかを発見する過程を支援するテキストマイニング技術について研究を行った.平成22年度は,以下の研究を行った. (1)特定トピックに関して詳細な記述を含むブログ記事集合に対して,特定トピックにおける詳細な話題・関心事項をファセットとみなして,各ファセットごとにブログ記事を分類し,トピック空間・ブログ空間の集約を実現した.この枠組みにおける基的な知識源として,Wikipediaを用いた. (2)(1)の成果を多言語化し,多言語間でトピック空間の集約結果,および,ブログ空間の集約果の差異の分析を行った.トピック空間の集約結果におけるファセット一覧を比較し,異なる言語の間で共通するファセット,および,各言語特有のファセットの両方を観測した.また,それぞれのファセットに分類されるブログ記事集合の集約結果を比較し,異なる言語の間で共通する関心事項,および,各言語特有の関心事項の両方を観測した. (3)ブログにおいてアフリエイト収入を得ることを目的とするスパムブログについて,HTML構造の類似性およびアフリエイトIDという異なる二種類の手がかりの特の分析を行った.特に,既知のスパムブログに対してHTML構造が類似するブログサイトを大規模に収集することにより,既知のスパムブログに類似するスパムブログが高密度で自動収集できることを示した.また,これらの二種類の手がかりを単独で用いた場合には,それぞれの適用範囲が十分ではなく,両者の手がかりを併用する必要があることを示した.さらに,両者いずれの手がかりによっても検できないスパムブログに対して,機械学習を適用し,高適合率の検出を実現した.

Research Products
(4 results)

All 2010

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results)

[Journal Article] 多言語Wikipediaエントリを知識源とする特定トピックの日英ブログサイト検索と日英対照ブログ分析2010
- Author(s)
  中崎寛之, 川場真理子, 横本大輔, 宇津呂武仁, 福原知宏
- Journal Title
  
  人工知能学会論文誌
  
  Volume: 25 Pages: 613-622
- Peer Reviewed
[Journal Article] Extracting Concerns and Reports on Crimes in Blogs2010
- Author(s)
  Yusuke Abe, Takehito Utsuro, Yasuhide Kawada, Tomohiro Fukuhara, Noriko Kando, Masaharu Yoshioka, Hiroshi Nakagawa, Yoji Kiyota, Masatoshi Tsuchiya
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 6335 Pages: 498-509
- Peer Reviewed
[Journal Article] Linking Topics of News and Blogs with Wikipedia for Complementary Navigation2010
- Author(s)
  Yuki Sato, Daisuke Yokomoto, Himyuki Nakasaki, Mariko Kawaba, Takehito Utsuro, Tbmohiro Fukuhara
- Journal Title
  
  Lecture Notes in Computer Science
  
  Volume: 6045 Pages: 75-87
- Peer Reviewed
[Presentation] HTML構造の類似性およびアフィリエイトを用いたスプログの分析2010
- Author(s)
  片山太一, 森尻惇宜史, 石井聡一, 宇津呂武仁, 河田容英, 福原知宏
- Organizer
  Webとデータベースに関するフォーラム(WebDB2010)
- Place of Presentation
  東京都・早稲田大学
- Year and Date
  2010-11-11

2010 Fiscal Year Annual Research Report

トピックの特性を言語間で比較・対照分析する多言語ウェブテキストマイニングの研究

Principal Investigator

宇津呂 武仁 筑波大学, 大学院・システム情報工学研究科, 准教授 (90263433)

Research Products

[Journal Article] 多言語Wikipediaエントリを知識源とする特定トピックの日英ブログサイト検索と日英対照ブログ分析2010

Author(s)

Journal Title

[Journal Article] Extracting Concerns and Reports on Crimes in Blogs2010

Author(s)

Journal Title

[Journal Article] Linking Topics of News and Blogs with Wikipedia for Complementary Navigation2010

Author(s)

Journal Title

[Presentation] HTML構造の類似性およびアフィリエイトを用いたスプログの分析2010

Author(s)

Organizer

Place of Presentation

Year and Date

宇津呂武仁筑波大学, 大学院・システム情報工学研究科, 准教授 (90263433)