• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Annual Research Report

Web情報を対象とした数十万人規模での著者推定

Research Project

Project/Area Number 25280113
Research Category

Grant-in-Aid for Scientific Research (B)

Research InstitutionWaseda University

Principal Investigator

山名 早人  早稲田大学, 理工学術院, 教授 (40230502)

Project Period (FY) 2013-04-01 – 2016-03-31
Keywords信憑性 / インターネットの安全性 / 著者推定 / SNS / tweet
Research Abstract

インターネット上には様々な情報が氾濫し、その信憑性が社会問題化してきている。本研究では、こうした信憑性を判断するための一手法として「誰がその記事を書いたか」という著者推定を数十万人規模で行う技術に取り組んでいる。
初年度は、SNSのtweetを対象とした著者推定を行い、当初目標である1000人での推定を実現すると共に、次段階として約5000人に対する著者推定実験を行った。この結果、約70%の精度で著者を推定できることを確認した。特に、tweetのコンテンツとして特有な叫喚tweetへの対応(叫喚tweetに対して特徴量を保存しつつ表記揺れを吸収するために正規化を実施)を行う手法、さらに文中に存在する著者特有の文体を表す品詞群に対して特徴量の重みを増す手法を提案し精度向上ができることを確認した。
さらに、著者推定を行うにあたり、当該著者の特徴を文体からだけではなく趣味や所属といった外部特徴量からも得る手法について検討を行った。具体的には、twitterにおいてメンションを送り合っているユーザ群をグルーピングし、著者推定対象ユーザがプロフィールを公開していなくても当該ユーザのプロフィール推定を行う仕組みを考案した。Precision@10(上位10位に列挙されたプロフィール情報の正解率)で約60%の性能を得ると共に、MRR(平均逆順位)で1.8を得ることができている。例えば、あるユーザに対して「○○大学」「1年生」「理工」などの属性や「ゆるキャラ」等の趣味に関する属性を付与することが可能となった。
また、「多言語への拡張の検討」及び「著者推定手法を用いることにより乗っ取りアカウントの検出が可能かどうかの検討」も行い、著者推定が可能となった後にどのような応用が可能であるかどうかの予備実験を行った。
以上、5000人規模での推定を実現し、規模において当初目標を上回ることができた。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

当初の計画では1000人レベルでの著者推定実現であったが、平成25年度中に5000人レベルでの著者推定(精度約70%)を達成できている。

Strategy for Future Research Activity

著者推定精度を向上させるために、SNS固有の特徴量を取り入れることを検討することが重要である。さらに、多言語(英語)への拡張についても検討し、より応用性の高い技術を目指す。

Expenditure Plans for the Next FY Research Funding

当該研究を実施する上で、大規模データ(tweet)を保存、解析するためのシステムとして大型PCを購入する予定であったが、収集を行うのに年度末までの期間を要し、保存するのみにとどまったことから、大型PC購入を次年度に持ち越したことによる。
上記理由に記載の通り、大規模データ(tweet)の収集を平成25年度に終えたことから、これを解析するための大型PC導入に用いる。また、並行して追加データを保存するためのディスク購入に充てる。

  • Research Products

    (6 results)

All 2014 2013

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (4 results)

  • [Journal Article] マイクロブログを対象とした5,000人レベルでの著者推定手法の提案-5,000人レベルでの著者推定2013

    • Author(s)
      奥野 峻弥, 浅井 洋樹, ,山名 早人
    • Journal Title

      WebDBフォーラム2013論文集

      Volume: - Pages: -

    • Peer Reviewed
  • [Journal Article] A comparative study of user evaluations for global restaurants under the multi-cultural backgrounds2013

    • Author(s)
      Le Jiawen, YAMANA Hayato
    • Journal Title

      WebDBフォーラム2013論文集

      Volume: - Pages: -

    • Peer Reviewed
  • [Presentation] メンション情報を利用したTwitterユーザプロフィール推定2014

    • Author(s)
      奥谷 貴志,山名 早人
    • Organizer
      電子情報通信学会DEIM2014
    • Place of Presentation
      淡路島
    • Year and Date
      20140303-20140305
  • [Presentation] Cross-lingual Investigation of User Evaluations for Global Restaurants2014

    • Author(s)
      LE Jiawen, YAMANA Hayato
    • Organizer
      電子情報通信学会DEIM2014
    • Place of Presentation
      淡路島
    • Year and Date
      20140303-20140305
  • [Presentation] twitterにおけるアカウント乗っ取りによる成りすましツイートの検出手法の提案2013

    • Author(s)
      上里和也,奥谷貴志,浅井洋樹,奥野峻弥,田中正浩,山名早人
    • Organizer
      情処研報(DBS), Vol.2013-DBS-158
    • Place of Presentation
      京都大学
    • Year and Date
      20131126-20131126
  • [Presentation] マイクロブログを対象とした1000人レベルでの著者推定手法構築に向けて2013

    • Author(s)
      奥野峻弥, 浅井洋樹, 山名早人
    • Organizer
      情処研報(DBS) Vol.2013-DBS-157
    • Place of Presentation
      北海道大学
    • Year and Date
      20130722-20130723

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi