研究課題/領域番号 |
25280113
|
研究種目 |
基盤研究(B)
|
研究機関 | 早稲田大学 |
研究代表者 |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 信憑性 / インターネットの安全性 / 著者推定 / SNS / tweet |
研究概要 |
インターネット上には様々な情報が氾濫し、その信憑性が社会問題化してきている。本研究では、こうした信憑性を判断するための一手法として「誰がその記事を書いたか」という著者推定を数十万人規模で行う技術に取り組んでいる。 初年度は、SNSのtweetを対象とした著者推定を行い、当初目標である1000人での推定を実現すると共に、次段階として約5000人に対する著者推定実験を行った。この結果、約70%の精度で著者を推定できることを確認した。特に、tweetのコンテンツとして特有な叫喚tweetへの対応(叫喚tweetに対して特徴量を保存しつつ表記揺れを吸収するために正規化を実施)を行う手法、さらに文中に存在する著者特有の文体を表す品詞群に対して特徴量の重みを増す手法を提案し精度向上ができることを確認した。 さらに、著者推定を行うにあたり、当該著者の特徴を文体からだけではなく趣味や所属といった外部特徴量からも得る手法について検討を行った。具体的には、twitterにおいてメンションを送り合っているユーザ群をグルーピングし、著者推定対象ユーザがプロフィールを公開していなくても当該ユーザのプロフィール推定を行う仕組みを考案した。Precision@10(上位10位に列挙されたプロフィール情報の正解率)で約60%の性能を得ると共に、MRR(平均逆順位)で1.8を得ることができている。例えば、あるユーザに対して「○○大学」「1年生」「理工」などの属性や「ゆるキャラ」等の趣味に関する属性を付与することが可能となった。 また、「多言語への拡張の検討」及び「著者推定手法を用いることにより乗っ取りアカウントの検出が可能かどうかの検討」も行い、著者推定が可能となった後にどのような応用が可能であるかどうかの予備実験を行った。 以上、5000人規模での推定を実現し、規模において当初目標を上回ることができた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の計画では1000人レベルでの著者推定実現であったが、平成25年度中に5000人レベルでの著者推定(精度約70%)を達成できている。
|
今後の研究の推進方策 |
著者推定精度を向上させるために、SNS固有の特徴量を取り入れることを検討することが重要である。さらに、多言語(英語)への拡張についても検討し、より応用性の高い技術を目指す。
|
次年度の研究費の使用計画 |
当該研究を実施する上で、大規模データ(tweet)を保存、解析するためのシステムとして大型PCを購入する予定であったが、収集を行うのに年度末までの期間を要し、保存するのみにとどまったことから、大型PC購入を次年度に持ち越したことによる。 上記理由に記載の通り、大規模データ(tweet)の収集を平成25年度に終えたことから、これを解析するための大型PC導入に用いる。また、並行して追加データを保存するためのディスク購入に充てる。
|