• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

トピックの特性を言語間で比較・対照分析する多言語ウェブテキストマイニングの研究

Research Project

Project/Area Number 20300032
Research InstitutionUniversity of Tsukuba

Principal Investigator

宇津呂 武仁  University of Tsukuba, 大学院・システム情報工学研究科, 准教授 (90263433)

Co-Investigator(Kenkyū-buntansha) 藤井 敦  筑波大学, 大学院・図書館情報メディア研究科, 准教授 (30302433)
Keywordsディレクトリ・情報検索 / 多言語処理 / テキストマイニング / トピック分析 / ブログ / ニュース / スパムブログ / Wikiedia
Research Abstract

本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間にどのような違いがあるのかを発見する過程を支援するテキストマイニング技術について研究を行った.平成20年度は,ウェブ上の多言語ニュース・ブログ等の各ジャンルにおいて,各トピックがどのような観点で強く関心を持たれているか,どのような意見を持たれているかを特定し,ジャンル間や言語間の差異の発見支援を行う手法について,以下の研究を行った。
(1)ウェブ上のテキストのジャンルとして,主に事実を報道するニュースと,主として一般利用者の意見や経験を伝えるブログとを対比的にとりあげ,ニュース,ブログ間で関連する項目や記述を相補的に検索する方式を実現した.これによって,ニュース・ブログという異ジャンル問で,観点の差異や意見の有無を発見する過程の支援が可能となった。
(2)ある同一のトピックについてまとまった規模の記述が書かれたブログサイトを,日英各言語について検索し,その記述内容を二言語間で対照分析する方式を実現した.これによって,同一のトピックが対象の場合でも,ブログ特有の個人レベルの関心が,日英ブログの間で異なっている様子や個人が持つ意見の分布が日英ブログの間で異なっている様子が容易に観測可能となった。
(3)機械学習の枠組みにより,ブログにおけるトピック分析の障害となるスパムブログ除去方式を実現した.また,能動学習の枠組みにより,年とともに変貌するスパムブログのうちの重要変化分を効率よく同定する方式を実現した。

  • Research Products

    (4 results)

All 2009 2008

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results)

  • [Journal Article] Mining Cross-Lingual/Cross-Cultural Differences in Concerns and Opinions in Blogs2009

    • Author(s)
      Hiroyuki Nakasaki, Mariko Kawaba, Takehito Utsuro, and Tomohiro Fukuhara
    • Journal Title

      Lecture Notes in Computer Science/Lecture Notes in Artificial Intelligence 5459

      Pages: 213-224

    • Peer Reviewed
  • [Presentation] 機械学習を用いたスパムブログ検出における信頼度の利用2009

    • Author(s)
      片山太一,佐藤有記,宇津呂武仁,芳中隆幸,河田容英,福原知宏
    • Organizer
      データ工学と情報マネジメントに関するフォーラム-DEIM-フォーラム-
    • Place of Presentation
      静岡県・ヤマハリゾートつま恋
    • Year and Date
      2009-03-10
  • [Presentation] Cross-Lingual Blog Analysis by Cross-Lingual Comparison of Characteristic Terms and Blog Posts2008

    • Author(s)
      Hiroyuki Nakasaki, Mariko Kawaba, Takehito Utsuro, Tomohiro Fukuhara, Hiroshi Nakagawa and Noriko Kando
    • Organizer
      2nd International Symposium on Universal Communication
    • Place of Presentation
      大阪府・大阪国際会議場
    • Year and Date
      2008-12-16
  • [Presentation] Integrating a Phrase-based SMT Model and a Bilingual Lexicon for Human in Semi-Automatic Acquisition of Technical Term Translation Lexicon2008

    • Author(s)
      Yohei Morishita, Takehito Utsuro and Mikio Yamamoto
    • Organizer
      8th Conference of the Association for Machine Translation in the Americas
    • Place of Presentation
      ハワイ・HiltonPrince Kuhio
    • Year and Date
      2008-10-24

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi