• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Research-status Report

2億件超の東日本大震災ツイッターデータからの発言者の役割を反映した時系列話題解析

Research Project

Project/Area Number 15K00314
Research InstitutionChiba University of Commerce

Principal Investigator

橋本 隆子  千葉商科大学, 商経学部, 教授 (80551697)

Co-Investigator(Kenkyū-buntansha) 白田 由香利  学習院大学, 経済学部, 教授 (30337901)
久保山 哲二  学習院大学, 付置研究所, 教授 (80302660)
チャクラボルティ バサビ  岩手県立大学, ソフトウェア情報学部, 教授 (90305293)
Project Period (FY) 2015-04-01 – 2018-03-31
Keywordsビッグデータ解析 / ソーシャルメディア解析 / 東日本大震災 / ツイッター解析 / 特徴抽出 / 時系列話題抽出
Outline of Annual Research Achievements

東日本大震災後21日間に投稿された2億件に及ぶTwitterデータ(15G)を対象として,発言者の役割を反映した時系列話題解析とその評価を行っている.
まず 「1) 開発環境整備」として,実験データのクリーニングを行い,発言者と単語の関係を1時間ごとの時系列2部グラフで表現した.さらに 「2) 時系列話題解析アルゴリズム開発Phase1」として,実験データに対して,オリジナルの特徴抽出手法であるCWCを用いて,各時間ごとの特徴語抽出を行った.特徴語の変化(距離)を時系列で計算することにより,大きく距離が変化した時刻に大きなイベントが発生したと判定し,時系列のイベントの抽出手法を提案した.CWC は高速かつ高性能の特徴抽出アルゴリズムであり,通常の手法(LDA等)ではリーズナブルな時間で解析できないビックデータの解析を行うことができる.特徴語抽出→距離測定→イベント判定を繰り返し行うことで,イベントのより詳細な内容を解析することが可能となっている.また,「3)発言者の役割推定アルゴリズム開発」の開発として, GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法も開発している.従来手法(LDA)との比較を行うことで,高速かつ高精度のソーシャルメディア解析手法を開発を行っている.研究成果を広く公表するために,UCLA(米国)にて Social Data Analysis Seminar を,チュラルンコン大学(タイ)にて,Big Data Analytics : Method and Applications セミナーを実施した.両セミナーとも多くの参加者に恵まれ,UCLA及びタイの研究者と研究の方向性や今後のコラボレーションについて議論する機会を得た.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

平成 27 年度は,大規模解析のための開発環境整備[(1)]及び,発言者と単語の2部グラフ生成とそれに基づく発言者の役割推定アルゴリズムの開発・実験[(2)]を行い,時系列話題解析[(3)]にはNMF(Non-negative Matrix Factorization),LDA等の話題抽出手法をオンライン化・乱択化して用いる予定とし,その開発もスタートするという予定であった.
大規模解析のための開発環境整備[(1)] としては,2億件のTwitterデータのデータクリーニングを行い,発言者と単語の関係を1時間ごとの時系列2部グラフで表現し,データベースに蓄積する処理を行った.これにより,今後のアルゴリズム開発,実験が非常に容易になった.さらに発言者と単語の2部グラフ生成とそれに基づく発言者の役割推定アルゴリズムの開発・実験[(2)]においては,GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法の開発を行っている.本アルゴリズムは既存手法(LDA) が話題抽出に数時間かかるところを数十秒で実現することを目指したものであり,現在のところ順調に開発が進んでいる.時系列話題解析[(3)]としては,既存手法(LDA)を乱択化するのではなく,オリジナルの特徴抽出手法CWCを開発し,それを適用することで,高速かつ高精度で時系列に話題を抽出できる手法の開発に取り組んでいる.高速なCWCはすでに開発済であり,それを利用した時系列話題抽出手法を28年度に完成させる予定である.

Strategy for Future Research Activity

平成28年度は,前年度の発言者の役割推定の結果を時系列話題解析へ反映するアルゴリズム[(3)]を開発する.対象 Twitterデータによる実験[(3)]も行う.
1)時系列話題解析アルゴリズム開発
現在,GENETIC ALGORITHMS の一つである BC ヒューリスティックや Median ヒューリスティックを用いて,発言者と単語の時系列2部グラフから話題抽出を行う手法の開発を行っており,単位時間ごとの話題を抽出するモジュールはすでに完成している.ここから重なりを許した形式での話題抽出手法をさらに開発し,時系列上の話題変化を追跡するアルゴリズムを開発する.通常,1時間ごとでは,20-30万件の単語,15万件の発言者からなる行列が得られる.これらをLDAを用いて解析しても,数時間以上の処理時間がかかり,実用的ではない.今回開発している手法ではこれを数十秒〜1分で行うことをめざしている.単位時間ごとの話題抽出は数十秒で実施できており,その後の重なりを許した話題抽出,時系列追跡についても高効率なアルゴリズムを開発可能であると考える.
2)対象データに対する実験(既存手法との比較も実施)
また,28年度は,提案手法を用いて2億件のTwitterデータに対する時系列話題解析実験を行い,その効果を確認する.既存手法をによる実験も併せて行い,提案手法が既存手法に比べて,如何に優れているかを示していく.実験結果は論文化し,広く論文発表をおこなっていく.

Causes of Carryover

物品費として、開発環境となるPC(MacBook Pro)を購入予定であったが、27年度、最新の機種が発売されず(28年度発売される予定)、購入を見送ったため、30万円ほどの残額が発生してしまった。

Expenditure Plan for Carryover Budget

28年度に最新型の開発環境用PC(MacBook Pro)を購入予定である。その際、最新型のスペックのものを28年度の物品費の予算の一部を足して購入する。

  • Research Products

    (10 results)

All 2016 2015 Other

All Int'l Joint Research (1 results) Journal Article (2 results) (of which Peer Reviewed: 2 results,  Acknowledgement Compliant: 2 results) Presentation (5 results) (of which Int'l Joint Research: 5 results,  Invited: 1 results) Funded Workshop (2 results)

  • [Int'l Joint Research] University of California Los Angeles,/Center of Digital Humanities(米国)

    • Country Name
      U.S.A.
    • Counterpart Institution
      University of California Los Angeles,/Center of Digital Humanities
  • [Journal Article] Developing a Framework for an Advisory Message Board for Female Victims after Disasters: A Case Study after East Japan Great Earthquake2015

    • Author(s)
      Takako Hashimoto, Yukari Shirota, Basabi Chakraborty
    • Journal Title

      Digital Scholarship in the Humanities

      Volume: 31 Pages: online

    • DOI

      http://dx.doi.org/10.1093/llc/fqv017

    • Peer Reviewed / Acknowledgement Compliant
  • [Journal Article] Topic transition detection about the East Japan great earthquake based on emerging modularity over time2015

    • Author(s)
      Takako Hashimoto, Basabi Chakraborty, Yukari Shirota
    • Journal Title

      International Journal of Computational Science and Engineering (IJCSE)

      Volume: 11 Pages: 259, 269

    • DOI

      http://dx.doi.org/10.1504/IJCSE.2015.072649

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] Invited talk-1: Event detection from millions of tweets related to disasters using high-performance feature selection technique2015

    • Author(s)
      Takako Hashimoto
    • Organizer
      WIECON-ECE 2015
    • Place of Presentation
      Dahka
    • Year and Date
      2015-12-19 – 2015-12-20
    • Int'l Joint Research / Invited
  • [Presentation] Topic extraction from millions of tweets using singular value decomposition and feature selection2015

    • Author(s)
      Takako Hashimoto, Tetsuji Kuboyama, Basabi Chakraborty
    • Organizer
      APSIPA2015
    • Place of Presentation
      Hong Kong
    • Year and Date
      2015-12-15 – 2015-12-19
    • Int'l Joint Research
  • [Presentation] Event Detection from Millions of Tweets Related to the Great East Japan Earthquake Using Feature Selection Technique2015

    • Author(s)
      Takako Hashimoto, Dave Shepard, Tetsuji Kuboyama, Kilho Shin
    • Organizer
      ICDM Workshops 2015
    • Place of Presentation
      Atlantic City
    • Year and Date
      2015-11-14 – 2015-11-17
    • Int'l Joint Research
  • [Presentation] Super-CWC and super-LCC: Super fast feature selection algorithms2015

    • Author(s)
      Kilho Shin, Tetsuji Kuboyama, Takako Hashimoto, Dave Shepard
    • Organizer
      Big Data 2015
    • Place of Presentation
      Santa Clara
    • Year and Date
      2015-10-29 – 2015-11-01
    • Int'l Joint Research
  • [Presentation] Monetary Policy Topic Extraction by Using LDA: - Termination of Asian Financial Crisis2015

    • Author(s)
      Yukari Shirota, Takako Hashimoto, Tamaki Sakura, Basabi Chakraborty
    • Organizer
      EJC2015
    • Place of Presentation
      Maribor, Slovenia
    • Year and Date
      2015-06-08 – 2015-06-12
    • Int'l Joint Research
  • [Funded Workshop] Big Data Analytics: Methods and Applications2016

    • Place of Presentation
      Department of Electrical Engineering. Chulalongkorn Unversity, Thai
    • Year and Date
      2016-03-08 – 2016-03-08
  • [Funded Workshop] SOCIAL DATA ANALYSIS SEMINAR2015

    • Place of Presentation
      Center for Digital Humanities, UCLA, USA
    • Year and Date
      2015-06-26 – 2015-06-26

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi