2020 Fiscal Year Research-status Report
Building a Twitter Database to Answer Political Science Research Questions
Project/Area Number |
18K01423
|
Research Institution | Waseda University |
Principal Investigator |
日野 愛郎 早稲田大学, 政治経済学術院, 教授 (30457816)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | ソーシャルメディア / Twitter / ランダムサンプリング / スノーボールサンプリング / 代表性 / アーカイブ |
Outline of Annual Research Achievements |
2020年度は、TwitterのアカウントIDの生成がかつての10桁の連番から18桁のランダム生成に変更されたことを踏まえて、スノーボールサンプリングによる収集方法を開発した。具体的には、フォロワー数の多いアカウントを起点にフォロワーのアカウントを収集し、2020年度は4000万件弱のアカウントを収集した。本プロジェクトにおいてこれまで検討してきた二段階方式によるTweetの収集では、全てのアカウントを継続的に収集することを念頭に置いていた。しかし、恒常的により短いサイクルで収集を継続するために、収集したアカウントからランダムにサンプリングしたアカウントから、継続的にTweetを収集するプログラムを開発した。新規に生成されたアカウントを追加していく際にも同様の仕様でランダムにサンプリングを繰り返し、Tweetを収集するアカウントを常に母集団の構成を反映するよう設計されている。 上記の2020年度の研究は、Twitterのデータベースを構築するという当初の目的を踏まえたものであり、どの程度前年度までに開発したランダムサンプリングによる収集の精度をスノーボールサンプリングのもとで維持できるかを追究したものである。前年度は、特定のキーワード(選挙時の政党名など)の増減やトピックモデルによるトピックの抽出について詳細な検討を加え、その成果を情報科学分野の主要査読誌であるInternational Journal of Information Managementに査読を経て掲載された。同様に、スノーボールサンプリングにより得られたTwitterデータがどの程度ランダムサンプリングと近い構成になっているかを継続的に検討する必要がある。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、ランダムサンプリングにより収集したツイッターのデータを、母集団と比較することにより、ランダムサンプリングにより代表性を担保できることを確認することができた。研究成果を海外の主要な査読誌に掲載できおり、良好であると判断した。また、現在はスノーボールサンプリングにより収集したデータの代表性を検証している。
|
Strategy for Future Research Activity |
スノーボーリングサンプリングにより収集するプログラムを構築し、収集したデータを母集団と比較することにより、代表性の程度を検証する作業を引き続き進める。このためには、Firehoseにより収集された母集団のデータのアクセスを確保し、検証する必要がある。
|
Causes of Carryover |
ツイートの取得用のプログラムを効率化することにより、使用額を当初の予定よりも抑えることができた。一方、取得したツイートはクラウドサービスに蓄積されており、次年度以降における利用料を多く見込む必要があり、計画に組み込むことにした。また、データを経時的に収集することにより検証の精度を上げることができるため、2021年度においても継続してデータを収集し、実質的な問題に応えるだけの代表性が担保されているかを確認する。
|
Research Products
(8 results)