2019 Fiscal Year Research-status Report
Building a Twitter Database to Answer Political Science Research Questions
Project/Area Number |
18K01423
|
Research Institution | Waseda University |
Principal Investigator |
日野 愛郎 早稲田大学, 政治経済学術院, 教授 (30457816)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | ソーシャルメディア / Twitter / ランダムサンプリング / スノーボールサンプリング / 代表性 / アーカイブ |
Outline of Annual Research Achievements |
2019年度は、前年度に続いてランダムサンプリングやスノーボールサンプリングを中心に、Twitterデータの収集方法を検討した。前年度は、ランダムサンプリングによる収集により、どの程度母集団であるTwitterデータの全体を再現できるかの検証に注力し、TwitterのIDが近年まで10桁の連番である特性を利用して、IDをランダムサンプリングし、言語を日本語としているアカウントを約160万件取得した。その上で、各アカウントのツイートを過去に遡って取得することを試み、二段のサンプリング(一段目は無作為抽出、二段目は全数抽出)により抽出されたツイートデータから、特定のキーワード(選挙時の政党名など)の増減やトピックモデルによるトピックの抽出について詳細な検討を加えた(その成果は、情報科学分野の主要査読誌であるInternational Journal of Information Managementに投稿し、査読を経て掲載された)。一方、TwitterのIDの生成様式が連番ではない18桁に変更されたことに対応して、2019年度はフォロワー数の多いアカウントを起点とするスノーボールサンプリングによるサンプリングの方法について重点的に検討した。このアプローチにより取得した約3300万件のアカウントをもとに得られたツイートのキーワードの増減やトピックの性質が、ランダムサンプリングによるものとどの程度異なるかについて分析を進めている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、ランダムサンプリングにより収集したツイッターのデータを、母集団と比較することにより、ランダムサンプリングにより代表性を担保できることを確認することができた。研究成果を海外の主要な査読誌に掲載できおり、良好であると判断した。また、現在はスノーボールサンプリングにより収集したデータの代表性を検証している。
|
Strategy for Future Research Activity |
スノーボーリングサンプリングにより収集するプログラムを構築し、収集したデータを母集団と比較することにより、代表性の程度を検証する作業を引き続き進める。
|
Causes of Carryover |
ツイートの取得用のプログラムを効率化することにより、使用額を当初の予定よりも抑えることができた。一方、取得したツイートはクラウドサービスに蓄積されており、次年度以降における利用料を多く見込む必要があり、計画に組み込むことにした。
|
Research Products
(12 results)