研究課題/領域番号 |
25280113
|
研究機関 | 早稲田大学 |
研究代表者 |
山名 早人 早稲田大学, 理工学術院, 教授 (40230502)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | 信憑性 / インターネットの安全性 / 著者推定 / SNS / tweet |
研究実績の概要 |
平成25年度までの研究により、インターネット上の情報(Tweet)を対象とした著者推定を行い、約5000人に対する著者推定実験を行い約70%の精度で著者を一意に推定できることを確認した。平成26年度は、前年の研究成果を踏まえ、数万人規模での著者推定の実現、特徴量の多様化、多言語への適用検討を目標とした。
結果、平成26年度は、約10万人での著者推定を精度約60%で行うことに成功し、当初の目標(1万人)を上回る成果を得た。この10万人という大規模データへの適用にあたっては、著者推定に用いる特徴量を見直し、tweetに登場する連続する記号の扱いを効率よく行う方法を提案した。さらに、複数の話題に対しても高精度を実現するために、(1)特徴量として一人のユーザに対して複数期間の特徴量を収集し用いることと、(2)特徴量にバイアスを付与する(他人との差別化において有効な特徴量に大きな重みを付与)という新しい手法の研究開発を行った。これにより、10万人規模でも精度を大きく下げることなく(5000人で精度約70%に対し10万人で精度約60%)著者推定の実現に成功した。さらに、当初の計画には無かったが、10万人のデータを扱う上で、実行時間が大きな問題となることから「高速化を実現する手法」についての研究を進めた。その結果、n-gramではなく形態素を単位としたn-gramを利用することで若干の精度低下(約7%)があるものの約2倍の高速化を実現した。これにより、現実的な時間内(10万人を対象とした場合も約100分)での実現を可能とした。また、英語への拡張についても検討を進め、概ね同様の手法で適用できることを確認している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初計画では1万人レベルでの著者推定実現であったが、平成26年度中に10万人レベルでの著者推定を実現した(精度約60%)。さらに、高速化手法についての研究を行い高速化を実現できた。
|
今後の研究の推進方策 |
当初の計画通り10万人レベルでの著者推定自体の実現を達成したことから、今後は精度を向上させる手法について、SNS固有の特徴量(例えばユーザ間のつながり)を踏まえた手法について発展的な研究を目指す。
|
次年度使用額が生じた理由 |
当初計画に加えて、著者推定手法に対して効率的な手法を平成26年度に進めることができ、導入した解析用サーバの規模を小さくできたため。
|
次年度使用額の使用計画 |
平成27年度は、当初予定のサーバやディスク購入だけではなく、繰り越し分を人件費にあてることで加速度的に研究を進める。
|