研究課題/領域番号 |
18K01423
|
研究機関 | 早稲田大学 |
研究代表者 |
日野 愛郎 早稲田大学, 政治経済学術院, 教授 (30457816)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | ソーシャルメディア / Twitter / ランダムサンプリング / スノーボールサンプリング / 代表性 / アーカイブ |
研究実績の概要 |
2019年度は、前年度に続いてランダムサンプリングやスノーボールサンプリングを中心に、Twitterデータの収集方法を検討した。前年度は、ランダムサンプリングによる収集により、どの程度母集団であるTwitterデータの全体を再現できるかの検証に注力し、TwitterのIDが近年まで10桁の連番である特性を利用して、IDをランダムサンプリングし、言語を日本語としているアカウントを約160万件取得した。その上で、各アカウントのツイートを過去に遡って取得することを試み、二段のサンプリング(一段目は無作為抽出、二段目は全数抽出)により抽出されたツイートデータから、特定のキーワード(選挙時の政党名など)の増減やトピックモデルによるトピックの抽出について詳細な検討を加えた(その成果は、情報科学分野の主要査読誌であるInternational Journal of Information Managementに投稿し、査読を経て掲載された)。一方、TwitterのIDの生成様式が連番ではない18桁に変更されたことに対応して、2019年度はフォロワー数の多いアカウントを起点とするスノーボールサンプリングによるサンプリングの方法について重点的に検討した。このアプローチにより取得した約3300万件のアカウントをもとに得られたツイートのキーワードの増減やトピックの性質が、ランダムサンプリングによるものとどの程度異なるかについて分析を進めている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り、ランダムサンプリングにより収集したツイッターのデータを、母集団と比較することにより、ランダムサンプリングにより代表性を担保できることを確認することができた。研究成果を海外の主要な査読誌に掲載できおり、良好であると判断した。また、現在はスノーボールサンプリングにより収集したデータの代表性を検証している。
|
今後の研究の推進方策 |
スノーボーリングサンプリングにより収集するプログラムを構築し、収集したデータを母集団と比較することにより、代表性の程度を検証する作業を引き続き進める。
|
次年度使用額が生じた理由 |
ツイートの取得用のプログラムを効率化することにより、使用額を当初の予定よりも抑えることができた。一方、取得したツイートはクラウドサービスに蓄積されており、次年度以降における利用料を多く見込む必要があり、計画に組み込むことにした。
|