2019 Fiscal Year Research-status Report
ソーシャルメディアにおける将来のトレンドを予測する時系列モデルの開発
Project/Area Number |
18K11560
|
Research Institution | National Institute of Informatics |
Principal Investigator |
小林 亮太 国立情報学研究所, 情報学プリンシプル研究系, 助教 (70549237)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | ソーシャルメディア分析 / Webデータ分析 / 時系列分析 / トピックモデル |
Outline of Annual Research Achievements |
Web上では、時々刻々膨大な量のコンテンツ (1分間にTwitter では45万以上のツイート, Youtube では400時間以上の動画が投稿されている) が生まれている。この中でも、人々に注目されるコンテンツはほんの一部である。本研究では、ソーシャルメディアに着目し、「将来のトレンド (Twitter におけるハッシュタグの流行など) を予測できるのか?」 という問いを設定して研究を進める。 2019年度は、インターネット上で生じるトレンドについての時系列モデルを構築するため、以下の2つの研究を進めた。 1) 共同研究者である Przemyslaw A. Grabowicz博士 (マサチューセッツ大, 米国) が収集した大規模Twitterデータを分析した。前年度に開発した、ツイートデータから自動的にトピック分類を行い、それぞれのトピックトレンドを抽出した。その後、ユーザがどのようなトピックを投稿するのかについての分析を進めた。得られた結果を論文にまとめ、学術誌に投稿した。 2) Wikipedia ページへのアクセス数は、インターネット上における人々の興味 (Wikipedia に書かれた項目についての興味) についての指標である。過去の研究 (Althoff et al., 2013; Yoshida et al., 2015) により、Wikipedia のアクセス数はTwitter活動やGoogle検索クエリなどと相関することがで示されている。私は、共同研究者である Patrick Gildersleve 氏 (オックスフォード大, 英国) が収集したWikipedia データを分析し、Wikipedia 閲覧数の時系列モデル構築に着手した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
2019年度には、ツイートデータから自動的にトピック分類し、トレンド抽出を行うデータ分析技術についての論文を執筆し、論文を学術誌に投稿できた。しかしながら、論文の査読や査読コメントへの対応に想定以上の時間がかかったため、遅れが生じてしまった。
|
Strategy for Future Research Activity |
まず、現在執筆中である、Wikipedia 閲覧数の時系列モデルについての論文をできるだけ早く完成させ、国際会議などで発表をしたい。その後、大規模なTweet データからトピックトレンドを抽出し、トピックトレンドの時系列モデルの構築を行うことを試みたい。引き続き、大規模なWeb・ソーシャルメディアデータを収集することを得意とする研究者との共同研究を進めていきたい。
|
Causes of Carryover |
計画当初は、2019年度には Grabowicz博士が当時所属していたマックスプランク研究所 (ドイツ) を訪問すること、共同研究の成果を国際会議で発表することを予定していた。しかし、2018年度にGrabowicz博士がマサチューセッツ大学への異動することが決まり、共同研究者であるGrabowicz 博士の 指導学生の David Adelani 氏が別予算で日本に長期滞在することになったため、海外出張の必要がなくなった。また、研究進捗が遅れたため、参加予定の国際会議に論文投稿が間に合わず、この出張を延期することにした。さらに、新型コロナウィルスの影響で3月に予定していた、研究打ち合わせのための海外出張は延期した。 2019年度に計画していた旅費は、Webテキストの前処理をする人件費や共同研究者との打ち合わせのための旅費 (出張が可能となった場合) などに充てることを計画している。
|