• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

トピックの特性の多観点把握に基づく多言語ウェブテキストの言語間対照分析システム

Research Project

Project/Area Number 23300033
Research InstitutionUniversity of Tsukuba

Principal Investigator

宇津呂 武仁  筑波大学, システム情報系, 准教授 (90263433)

Co-Investigator(Kenkyū-buntansha) 吉岡 真治  北海道大学, 大学院・情報科学研究科, 准教授 (40290879)
乾 孝司  筑波大学, システム情報系, 助教 (60397031)
Keywordsディレクトリ・情報検索 / ファセット検索 / 多言語処理 / トピック分析 / ニュース・ブログ
Research Abstract

本研究では,ウェブ上で収集可能な多言語ニュース・ブログ・電子掲示板等の文書を情報源として,多言語での報道内容,関心動向や,意見の分布を分析し,国・文化・言語の間でどのような違いがあるのかを発見する過程を支援する.平成23年度は,以下の研究を行った.
(1)一つのトピックの中での詳細な話題・関心事項の推定
宇津呂,吉岡の研究成果においては,広義には同一のトピックについてのニュース記事・ブログ記事であっても,各言語での記述内容における詳細な話題・関心事項を正確に特定し,その微妙な差異を言語間で検出することが重要であるという知見が得られた.例えば,「臓器移植」の例では,日本語特有の現象として,ニュース・ブログにおいて,特定の話題「臓器移植法」への関心が高く,英語ブログ特有の現象として,「euthanasia(安楽死)」への関心が観測される.そのため,これらの詳細な話題・関心の差異の検出が重要な手がかりとなる.そこで,この研究項目では,多言語Wikipediaの一つのエントリの記述をトピックモデルとみなして,入力文書の記述内容・詳細な話題を特定する手法の研究を行った.
(2)トピックの時系列特性の分析
時系列解析において著名なKleinbergのバースト解析モデルと研究項目(1)の多言語Wikipediaトピックモデルを併用して,話題のまとまり単位でのバースト解析を実現し,各言語特有の時系列特性をとらえる方式を実現した.従来のバースト解析では,個々のキーワードの時系列特性を独立に解析するために,話題のまとまりとしてのバーストを自動認識することが困難であった.一方,提案方式では,同一話題の文書集合を同定したうえで,話題単位でバーストを検出することを実現した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究実績の概要で述べたとおり,(1)Wikipediaを知識源とすることにより,一つのトピックの中での詳細な話題・関心事項の推定方式を実現した.また,この研究に対して,電子情報通信学会言語理解とコミュニケーション研究会より学生研究賞を授与された.また,(2)トピックの時系列特性の分析方式を実現した.当初の計画通り,以上の課題を達成することができたため,おおむね順調に進展している.

Strategy for Future Research Activity

平成24,および,25年度においても,当初の研究計画調書に掲げた計画通り,以下の(i)~(iv)の多様な観点における差異を自動で特定・類型化する技術の実現を推進する.
(i)一つのトピックの中での詳細な話題・関心事項の差異.
(ii)国・文化・言語の間で関心が集中した時期が異なる,といった時系列特性の差異.
(iii)ブログ・掲示板・レビューサイト等における書き手の実体験に関する記述の有無の差異.
(iv)一つのトピック,あるいは,その中での詳細な関心事項に対する賛否・主観の差異.

  • Research Products

    (11 results)

All 2012 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (8 results)

  • [Journal Article] LDA-Based Topic Modeling in Labeling Blog Posts with Wikipedia Entries2012

    • Author(s)
      Daisuke Yokomoto, Kensaku Makita, Hiroko Suzuki, Daichi Koike, Takehito Utsuro, Yasuhide Kawada, Tomohiro Fukuhara
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 7234巻 Pages: 114-124

    • DOI

      10.1007/978-3-642-29426-6_15

    • Peer Reviewed
  • [Journal Article] Utilizing Wikipedia in Categorizing Topic related Blogs into Facets2011

    • Author(s)
      Daisuke Yokomoto, Kensaku Makita, Takehito Utsuro, Yasuhide Kawada, and Tomohiro Fukuhara
    • Journal Title

      Procedia - Social and Behavioral Sciences

      Volume: 27巻 Pages: 169-177

    • DOI

      10.1016/j.sbspro.2011.10.595

    • Peer Reviewed
  • [Journal Article] Comparing Similarity of HTML Structures and Affiliate IDs in Splog Analysis2011

    • Author(s)
      Taichi Katayama, Akihito Morijiri, Soichi Ishii, Takehito Utsuro, Yasuhide Kawada, and Tomohiro Fukuhara
    • Journal Title

      Lecture Notes in Computer Science

      Volume: 6637巻 Pages: 378-389

    • DOI

      10.1007/978-3-642-20244-5_36

    • Peer Reviewed
  • [Presentation] 日中時系列ニュースにおけるトピックの推定と二言語間対応付け2012

    • Author(s)
      胡碩, 高橋佑介, 牧田健作, 横本大輔, 宇津呂武仁, 吉岡真治
    • Organizer
      言語処理学会第18回年次大会
    • Place of Presentation
      広島県・広島市立大学
    • Year and Date
      2012-03-14
  • [Presentation] 時系列トピックモデルにおけるバーストの同定2012

    • Author(s)
      高橋佑介, 横本大輔, 宇津呂武仁, 吉岡真治, 河田容英, 神門典子, 福原知宏, 中川裕志, 清田陽司
    • Organizer
      第4回データ工学と情マネジメントに関するフォーラム---DEIMフォーラム---
    • Place of Presentation
      兵庫県・シーサイドホテル舞子ビラ神戸
    • Year and Date
      2012-03-04
  • [Presentation] ブロガーの話題分布の俯瞰と分析2012

    • Author(s)
      牧田健作, 横本大輔, 鈴木浩子, 宇津呂武仁, 河田容英, 神門典子, 福原知宏, 中川裕志, 吉岡真治, 清田陽司
    • Organizer
      第4回データ工学と情報マネジメントに関するフォーラム---DEIMフォーラム---
    • Place of Presentation
      兵庫県・シーサイドホテル舞子ビラ神戸
    • Year and Date
      2012-03-04
  • [Presentation] ニュース・ブログにおける話題の相関と変遷の分析---震災に関する話題を例題として---2012

    • Author(s)
      小池大地, 横本大輔, 牧田健作, 鈴木浩子, 宇津呂武仁, 河田容英, 吉岡真治, 神門典子, 福原知宏, 中川裕志, 清田陽司, 関洋平
    • Organizer
      第4回データ工学と情報マネジメントに関するフォーラム---DEIMフォーラム---
    • Place of Presentation
      兵庫県・シーサイドホテル舞子ビラ神戸
    • Year and Date
      2012-03-03
  • [Presentation] 文書集合の話題俯瞰のためのクラスタリング手法2012

    • Author(s)
      横本大輔, 鈴木浩子, 牧田健作, 宇津呂武仁, 津呂武仁, 河田容英, 福原知宏
    • Organizer
      第4回データ工学と情報マネジメントに関するフォーラム---DEIMフォーラム---
    • Place of Presentation
      兵庫県・シーサイドホテル舞子ビラ神戸
    • Year and Date
      2012-03-03
  • [Presentation] Wikipediaを知識源とする日英ブログ記事集合の観点分類と言語間対照分析2011

    • Author(s)
      鈴木浩子, 横本大輔, 牧田健作, 宇津呂武仁, 河田容英, 福原知宏
    • Organizer
      情報処理学会第153回データベースシステム研究発表会
    • Place of Presentation
      東京都・エステック情報ビル21階
    • Year and Date
      2011-11-03
  • [Presentation] Wikipediaを多言語知識源とするブログ集合の話題分析2011

    • Author(s)
      牧田健作, 横本大輔, 鈴木浩子, 宇津呂武仁, 河田容英, 福原知宏
    • Organizer
      電子情報通信学会言語理解とコミュニケーション研究会第1回テキストマイニング・シンポジウム
    • Place of Presentation
      東京都・日本アイ・ビー・エム本社(箱崎)事業所
    • Year and Date
      2011-07-08
  • [Presentation] Wikipediaを知識源とするブログ記事の観点分類2011

    • Author(s)
      横本大輔, 牧田健作, 宇津呂武仁, 河田容英, 福原知宏
    • Organizer
      第25回人工知能学会全国大会
    • Place of Presentation
      岩手県・アイーナいわて県民情報交流センター
    • Year and Date
      2011-06-02

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi