本研究はランダムサンプリングやスノーボールサンプリングにより代表性を担保する形でTwitterデータを収集する方法を検討した。二段階のサンプリングデザイン(一段目はアカウントの抽出、二段目はツイートの全数抽出)により得られたツイートデータから、ツイート数や抽出されたトピックの質量ともに高い代表性が得られることが明らかとなった。スノーボールサンプリングによる結果は、ツイート数に関しては母集団を十分に代表するサンプルであることが確認された。成果は情報科学分野の主要査読誌であるInternational Journal of Information Managementに査読を経て掲載された。
|