2018 Fiscal Year Research-status Report
Building a Twitter Database to Answer Political Science Research Questions
Project/Area Number |
18K01423
|
Research Institution | Waseda University |
Principal Investigator |
日野 愛郎 早稲田大学, 政治経済学術院, 教授 (30457816)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | ソーシャルメディア / Twitter / ランダムサンプリング / スノーボールサンプリング / 代表性 / アーカイブ |
Outline of Annual Research Achievements |
本研究は、ソーシャルメディアの代表格であるTwitterのデータを恒常的に収集し、政治学的な課題の解明に資するデータベースを構築することを目的としている。ソーシャルメディアのデータは、リアルタイムに収集しなければ散逸してしまうことが多い。一方、研究の問いは、必ずしも現在進行形で現れるわけではなく、時として過去に遡って答えを探す必要がある。本研究は、このような要請に応え、研究者が様々な問いを事後的に検証できるようデータベースを構築することを目的としている。 2018年度は、ランダムサンプリングやスノーボールサンプリングを中心に、Twitterデータの収集方法を検討した。その結果、まずはランダムサンプリングによる収集により、どの程度母集団であるTwitterデータの全体を再現できるかの検証に注力した。TwitterのIDが近年まで10桁の連番である特性を利用して、IDをランダムサンプリングし、言語を日本語としているアカウントを約160万件取得した。その上で、各アカウントのツイートを過去に遡って取得することを試みた。この二段のサンプリング(一段目は無作為抽出、二段目は全数抽出)により抽出されたツイートデータから、特定のキーワード(選挙時の政党名など)の増減やトピックモデルによるトピックの抽出について詳細な検討を加えた。ツイッターの全数データから同じキーワードによるツイートを取得し、抽出したサンプルツイートの量と質に違いがないかを調べたところ、両者は極めて高い水準で相似形を成すことを確認した。研究の成果を論文にまとめ、情報科学分野の主要査読誌であるInternational Journal of Information Managementに投稿し、査読を経て掲載された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、ランダムサンプリングにより収集したツイッターのデータを、母集団と比較することにより、ランダムサンプリングにより代表性を担保できることを確認することができた。研究成果を海外の主要な査読誌に掲載できおり、良好であると判断した。
|
Strategy for Future Research Activity |
スノーボーリングサンプリングにより収集するプログラムを構築し、収集したデータを母集団と比較することにより、代表性の程度を検証する。
|
Causes of Carryover |
ツイートの取得用のプログラムを効率化することにより、使用額を当初の予定よりも抑えることができた。一方、取得したツイートはクラウドサービスに蓄積されており、次年度以降における利用料を多く見込む必要があり、計画に組み込むことにした。
|
Research Products
(22 results)