研究課題/領域番号 |
18K01423
|
研究機関 | 早稲田大学 |
研究代表者 |
日野 愛郎 早稲田大学, 政治経済学術院, 教授 (30457816)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | ソーシャルメディア / Twitter / ランダムサンプリング / スノーボールサンプリング / 代表性 / アーカイブ |
研究実績の概要 |
本研究は、ソーシャルメディアの代表格であるTwitterのデータを恒常的に収集し、政治学的な課題の解明に資するデータベースを構築することを目的としている。ソーシャルメディアのデータは、リアルタイムに収集しなければ散逸してしまうことが多い。一方、研究の問いは、必ずしも現在進行形で現れるわけではなく、時として過去に遡って答えを探す必要がある。本研究は、このような要請に応え、研究者が様々な問いを事後的に検証できるようデータベースを構築することを目的としている。 2018年度は、ランダムサンプリングやスノーボールサンプリングを中心に、Twitterデータの収集方法を検討した。その結果、まずはランダムサンプリングによる収集により、どの程度母集団であるTwitterデータの全体を再現できるかの検証に注力した。TwitterのIDが近年まで10桁の連番である特性を利用して、IDをランダムサンプリングし、言語を日本語としているアカウントを約160万件取得した。その上で、各アカウントのツイートを過去に遡って取得することを試みた。この二段のサンプリング(一段目は無作為抽出、二段目は全数抽出)により抽出されたツイートデータから、特定のキーワード(選挙時の政党名など)の増減やトピックモデルによるトピックの抽出について詳細な検討を加えた。ツイッターの全数データから同じキーワードによるツイートを取得し、抽出したサンプルツイートの量と質に違いがないかを調べたところ、両者は極めて高い水準で相似形を成すことを確認した。研究の成果を論文にまとめ、情報科学分野の主要査読誌であるInternational Journal of Information Managementに投稿し、査読を経て掲載された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
当初の計画通り、ランダムサンプリングにより収集したツイッターのデータを、母集団と比較することにより、ランダムサンプリングにより代表性を担保できることを確認することができた。研究成果を海外の主要な査読誌に掲載できおり、良好であると判断した。
|
今後の研究の推進方策 |
スノーボーリングサンプリングにより収集するプログラムを構築し、収集したデータを母集団と比較することにより、代表性の程度を検証する。
|
次年度使用額が生じた理由 |
ツイートの取得用のプログラムを効率化することにより、使用額を当初の予定よりも抑えることができた。一方、取得したツイートはクラウドサービスに蓄積されており、次年度以降における利用料を多く見込む必要があり、計画に組み込むことにした。
|