昨年度までの研究成果を踏まえて、多層的・時系列的な行動データを分析する手法をさらに発展させ、今年度はTwitter以外のオンラインデータにも適用して実験を行なった。まず、Twitterの時系列からの個人属性の予測課題では、アンケート調査を行い、個人属性の正解ラベルを得た上で、階層的なニューラルネットワークを用いてTwitterの書き込みのみからどのぐらい個人属性を予測できるのかを実験した。その結果、昨年度の実験で用いた性別、年齢層、職業の基本属性だけでなく、飲酒するか否か、Facebook上の友人の多寡、専門書を読むかどうかなど、多様な個人属性が6割以上の正答率で予測できることが明らかになった。ツイートの時間順序をランダマイズすると、正答率の平均自体は下がらないものの、分散が大きくなることがわかった。さらに、性別予測を例として、どのような情報を手掛かりとして、階層的ニューラルネットワークが識別を学習しているのかを調査したところ、男性も女性も使用する共通単語のうち性別と意味的に関連するものが重要な役割を果たすことがわかった。次に、ファクトチェッキング団体が公表しているニュースとフェイクニュースを入力として、同様のアプローチを用いて実験したところ、やはり6割以上の精度で正解できることがわかった。ただし、これは英語のニュース記事のみの結果なので、今後、日本語のニュース記事でも同様の精度になるかを検証しなければならない。これら2つの研究の成果については、人工知能学会、WiNF2018、計算社会科学研究会で報告をおこなった。
|