インターネットには様々な情報が氾濫し、その信憑性が社会問題化している。本研究は、「誰がその記事を書いたか」という著者推定を数十万人規模で行うことにより、将来的には、記事の著者を推測し、著者本人の信頼性に帰着させることを目指した。 今年度は、昨年度までに達成した10万人規模での著者推定(Twitterユーザ対象)の精度向上(第一位での抽出の場合、精度60%達成)を行うため、要素技術(単語重要度付与、形態素解析器精度向上)のさらなる研究を進めると共に、Twitter等へのデータ入力時に用いられる携帯端末利用時の特徴量を個人認証に用いるという応用拡大を目指した。
著者推定精度向上では、専門用語に対して専門度を付与する「単語重要度計算手法」を提案した。これは、ショートメッセージを対象とした場合、著者の特徴量抽出が難しいことを補助するものとなる。具体的には単語レベルで専門性を付与することを目指した。プログラミングを題材とした評価において、従来手法(相互情報量等)に比較して高い専門度付与ができることを確認すると共に、10件程度のtweetから当該ユーザの当該分野における専門度推定が可能となることを明かにした。さらに、tweet等の新語が多いデータを対象とした形態素解析を実現するため、ニューラルネットワークを用いた系列ラベリングによる形態素解析を実現した。評価実験の結果、従来手法に比較しF1値を94.43から96.00へ向上させることができることを確認した。
最後に、アクティブ認証への応用を検討した。アクティブ認証はユーザとのインタラクション中に継続的な認証を行う手法である。この結果、19ストローク毎の認証間隔で評価指標ERR値(等価エラー率)1.8%を達成した。本結果は、利用者のストローク性向が著者推定(利用者推定)に応用できることを示しており、今後の応用拡大につながる。
|