研究課題/領域番号 |
18K11443
|
研究機関 | 千葉商科大学 |
研究代表者 |
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
研究分担者 |
岡本 洋 東京大学, 大学院工学系研究科, 非常勤特任研究員 (00374067)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | ビッグデータ解析 / ソーシャルメディア解析 / 時系列話題解析 / マイクロクラスタリング / データマイニング / デマ発見 / 話題多様性 |
研究実績の概要 |
意義:本研究は大規模災害(東日本大震災等)時に投稿された数億件規模のTwitterデータを対象とし、話題の成長パターン分析とそのモデル化を行うことを目的としている。人々の行動や社会に対して大きな影響を与えるソーシャルメディア上の話題を可視化し、話題拡散の様子を示し、人々のコミュニケーション、話題の信頼性評価や議論の推移予測をサポートする技術の開発を目指す。 今年度の実績:今年度は東日本大震災後に投稿された大規模Twitterデータに対して、各種話題(デマやそうでない話題も含む)の成長の様子の時系列分析を行った。国立情報学研究所の宇野教授のデータ研磨手法を用い、話題クラスターの抽出を行っている。分析パラメタ-として、話題全体を構成するのツイート数・話題クラスターの数を取り上げ、分位点回帰モデルにより、時系列変化を可視化した。その結果、話題拡散時の多様性は分位点回帰の95%分位点の傾きで表現できること、デマのように人々が深く考えることなく拡散する情報の場合、多様性が低くなり、分位点回帰の95%分位点の傾きが低い傾向があるということを示すことができた。それに基づき、現在、モデル化に向けて検討を行っている。また、近年大きな問題となっているコロナウイルス感染のTwitter分析についても着手し、厚生省クラスター解析班の方々との研究交流なども実施している。 重要性:本研究により、たとえば東日本大震災時のデマ拡散が話題の多様性が低い状況で行われていると思われることを示すことが出来た。コロナウイルス感染のTwitterデータにも適用しており、より社会の喫緊の課題に対応できる研究へと展開している。論文発表も順調に行っている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
令和1年度は東日本大震災後に投稿された大規模Twitterデータに対して、各種話題(「石油コンビナート爆発」、「イソジンうがい」のデマや、「福島」、「宮城」といった被災地方に関する話題、「被害」、「大丈夫」といった広く用いられた単語を含む話題など)の成長の様子の時系列分析を行った。話題抽出手法として、国立情報学研究所の宇野教授のデータ研磨手法(マイクロクラスタリングを用い、大規模データからの話題抽出を行った。話題抽出結果に対して、話題全体を構成するのツイート数・話題クラスターの数に注目し、時系列分析に取り組んでいる。その結果、話題全体を構成するのツイート数・話題クラスターの数にはリニア相関があること、一方で、話題の種類(デマ、通常の話題)によって、その形状に違いが見られることなどを可視化し、話題の多様性(同じツイート数のときに、話題の数が少ないと多様性が低くなる)が重要な役割を果たすことを示すことが出来た。デマのように人々が深く考えることなく拡散する情報の場合、多様性が低くなる。それに基づき、現在、順調にモデル化に向けて検討を行っている。この研究結果は、現在、ジャーナル論文として投稿中(条件付き採択)、最終レビュー結果を待っているところである。また、近年大きな問題となっているコロナウイルス感染のTwitter分析についても着手し、厚生省クラスター解析班の方々との研究交流なども実施している。 自然災害時のツイート分析のみならず、コロナウイルス感染のような災害時のツイートデータに対しても本研究を適用し、社会の喫緊の課題に対応できる研究に向けて展開している。国際学会発表、招待講演も順調に行った。
|
今後の研究の推進方策 |
令和2年度は、前年度に実施した「話題の多様性」にもとづく話題成長パターンをモデル化をさらに精緻化するために、話題全体を構成するのツイート数・話題クラスターの数に加えたパラメターを探索する。そしてデマ拡散時、通常時、炎上時などの状況を表現可能なモデルの作成に注力する。さらに震災データのみならず、コロナ感染のような災害時のツイートの解析も進め、非常におけるTwitter上の話題抽出として利用可能な手法への展開を目指す。話題の検知には、投稿者の役割推定が重要となるため、投稿者の情報活用・解析も進めていく。特にコロナ感染のようなTwitterデータにおいては、投稿者解析が重要となるため、そのためのプログラム開発・実験を積極的に行う。厚労省クラスター解析班のチームとも引き続き研究交流を行い、喫緊の課題に対応できるよう考慮する。 また、実験環境を充実させるため、高性能PCの購入、大規模記憶装置の準備など、開発環境の整備を行っていく。特に数十万件規模のTweetに対して、適切な実行時間(数十分以内)で処理を終わらせることができるように、環境整備、アルゴリズムの改良を行っていく。 また、本年は本プロジェクトの最終年度に当たるため、研究まとめ作業にも注力する。残念ながらコロナ感染により物理的な学会出張は不可能であるが、オンライン会議などを活用し、国内外に成果をアピールする。Webサイトによる情報発信も積極的に行っていく。
|
次年度使用額が生じた理由 |
コロナウイルス関連で、研究代表者が予定していた海外出張(3月、インドネシア)がキャンセルとなったため。さらに研究代表者は、2件の基盤(A)の研究分担者であり、そちらからも予算を受け入れることができたため、備品等の購入はそちらの予算でまかなえた。
|