2018 Fiscal Year Research-status Report
Topic Transition Analysis from Millions of Tweets After Severe Disasters
Project/Area Number |
18K11443
|
Research Institution | Chiba University of Commerce |
Principal Investigator |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Co-Investigator(Kenkyū-buntansha) |
岡本 洋 国立研究開発法人理化学研究所, 脳神経科学研究センター, 客員研究員 (00374067)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | ビックデータ解析 / ソーシャルメディア解析 / 時系列話題分析 / マイクロクラスタリング / データマイニング / デマ発見 / 話題の多様性 |
Outline of Annual Research Achievements |
意義:本研究は東日本大震災等の大規模自然災害時に投稿された数億件規模のTwitterデータ対象とし,話題の成長パターン分析とそのモデル化を行うことを目的としている。人々や社会に大きな影響を与えるソーシャルメディア上の話題を可視化し、話題拡散の様子を人々に示し、話題の信頼性評価や議論の推移予測をサポートする技術の開発を目指す。 今年度の実績:今年度は、災害後に投稿された大規模Twitterデータの整理,開発マシン等の準備を行い、大規模ツイート群を時系列に分析可能な実験環境を整備した。大規模ツイートに対して、マイクロクラスタリング技術を利用して、従来の話題抽出手法では難しかった小さい単位での話題抽出を行った。抽出された話題群に対して、話題全体のツイート数、話題の数の関係を時系列で評価し、話題の多様性として表現できることを示した。さらに投稿者の影響を評価するために、投稿者のクラスタリングも実施している。話題の多様性の低い状況において、同じようなツイートを投稿する投稿者の特徴を分析することで、話題成長パターンの分析が更に精緻化する。複数のデマトピックに関して、実験を行い、モデル化に向けて考察を開始したところである。 重要性:本研究により、たとえば東日本大震災時の「石油コンビナート爆発」や「放射線対策にはイソジンを飲むと良い」といったようなデマの拡散は、多様性の低い状況で起きていることを観察した。これらの成果をまとめてIEEE BigComp2018(採択率23%)で発表を行い、高い評価を得た(ジャーナル論文として推薦された)。さまざまな学会やシンポジウムでの招待講演も行い、医療分野での雑誌等にも寄稿を行い、本研究の意義及び重要性をアピールした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度は、災害後に投稿された大規模Twitterデータの整理,開発マシン等の準備を行った。データとしては、東日本大震災後の2億件超のツイート、北海道胆振地震後の200万余のツイートなどである。開発環境構築として、Python等で解析のためのプログラムを開発し、大規模ツイート群を時系列に分析可能な実験環境を整備した。 話題成長パターンの分析とモデル化に関しては、大規模ツイートに対して、マイクロクラスタリング技術を利用して、従来の話題抽出手法では難しかった小さい単位での話題抽出を行った。抽出された話題群に対して、話題全体のツイート数、話題の数の関係を時系列で評価し、話題の多様性として表現できることを示した。人々が同じようなツイートを多数投稿している場合は、話題の数が少なく多様性が低くなる。一方、同じツイート件数であっても、話題の数が多く、ばらついているときは多様性が高くなる。本研究により、たとえば東日本大震災時の「石油コンビナート爆発」や「放射線対策にはイソジンを飲むと良い」といったようなデマの拡散は、多様性の低い状況で起きていることを観察した。これらの成果をまとめてIEEE BigComp2018(採択率23%)で発表を行い、高い評価を得た(ジャーナル論文として推薦された)。話題の多様性の指標化を行うために、話題の数だけでなく、エントロピーの計算を行い、時系列変化を観察している。 さらに投稿者の影響を評価するために、投稿者のクラスタリングも実施している。話題の多様性の低い状況において、同じようなツイートを投稿する投稿者の特徴を分析することで、話題成長パターンの分析が更に精緻化する。複数のデマトピックに関して、実験を行い、モデル化に向けて考察を開始したところである。
|
Strategy for Future Research Activity |
平成31年度は、前年度に実施した「話題の多様性」に基づく話題成長パターンを精緻化するために、投稿者役割の分析をさらに進める。話題の多様性が低い状況における投稿者の役割を解析し、どういった状況の時に人々は同じような投稿を行い、デマ等が拡散するのかを分析する。それに基づき投稿者の役割推定の結果を時系列分析へ反映するアルゴリズムを開発する。開発したアルゴリズムに従ってプログラムを実装し、大規模実験に耐えうる環境を構築する。さらに本年度は「興りそうな話題」をどのように発見するかについての解析を行う。多様性が低くなる瞬間を如何に捉えるか、多様性が低くなる予測される話題を如何に発掘するかは、ソーシャルメディア上の話題解析において極めて重要である。そのため、バズった単語などをいち早く発見し、その単語に関わる話題がどのように拡散しているかを、高速で判断できるような手法を考案し、実装を目指す。 時系列上の話題推移分析においては、通常,1時間ごとでは,20-30万件の単語,15万件の発言者からなる行列が得られる。こうした大規模行列をLDAのような従来手法により解析すると,数時間以上の処理時間がかかり,実用 的ではない。今回開発している手法ではこれを数十秒から数分で行うことを目指している。我々の手法では単位時間(現状は30分)ごとの話題抽出は数分で実施できており,その後の時系列推移分析についても高効率な手法を開発可能であると考える. 実績は論文化し,広く発表を行っていく予定である。
|
Causes of Carryover |
研究分担者である学習院大学の久保山教授は、予定していた国内出張を学習院大学内の資金で賄ったため、予算を一部使わなかった。次年度の出張費として利用予定である。
|
Research Products
(14 results)