本研究では,SNS利用者の公開情報に基づいて,第三者がその利用者の個人情報をどの程度推測可能であるかを機械的に判定し,プライバシーを保護するためのシステムを開発することを目的としている. 初年度となる平成27年度は,SNS上のデータ収集用クローラを開発し,Amazon Web Service上に実装して必要なデータ収集を進めた.また,テストケースとして,利用者の年齢等のデモグラフィック属性を機械学習によって判定可能か評価実験を実施した.また,SNSを発端とする炎上事例の多くは画像付き投稿が大きく影響していることから,画像付きツイートの分析手法についても検討を行った. 2年目となる平成28年度は,位置情報付き投稿に着目し分析を行った.主要なSNSの一つであるTwitterでは,位置情報付きツイートの比率は約1%程度である.しかし,位置情報が明示的に付与されていないツイートであっても,地名や地域を特定可能な固有名詞がツイートに含まれている場合,そのツイートの発信地を高精度に予測可能である可能性がある.そこで,ツイートの内容に基づいて位置情報を特定可能であるかどうかを検討し,Open Street Mapから得られた位置に関する情報と紐づけることで,約60%の精度で位置が特定可能であることを示した. 3年目となる平成29年度は,SNS利用者の発信情報から,その利用者の職業を推定する手法の検討を行った.国内外の類似研究を調査した結果,語彙を抽象化してカテゴリ化するツールであるLIWCを用いた手法が有力であったため,その辞書を用いて推定を行った.LIWCは日本語化されておらず,日本語化手法も同時に開発し実施したところ,英語版での研究成果と同等の推定精度で,職業を推定するアルゴリズムを構築することができた.
|