情報過多社会である現在、玉石混交の情報が溢れている。人が閲覧する情報量は膨大で、処理できる情報量を明らかに超えている.そこで本研究では、質の高い情報を系から抽出する事により、誰でも容易に質の高い情報にアクセスできる整理された情報化社会の構築を目指している。 情報の質は自然言語における情報量とは大きく異なり、その情報によって呼び起こされる背景知識に基づいている。そのため、自然言語と機械学習のアプローチから情報の質を測定することは困難であった。そこで、本研究では、情報を「拡散しているユーザの集合」として捉える事で、ユーザに蓄積された知識を活用することを提案する。 そのためには、ユーザがRTをする確率を推定する必要がある。本研究では、各ユーザがあるtweetにどの程度興味を持っているのかを推定した。本研究においては2017年衆議院総選挙時のtweetを用いた。しかし、ユーザがtweetをRTするかどうかを推定することは本質的に推定することは難しいと言われている。そこで、本研究ではユーザがあるtweetにどの程度の興味を持っているのかを推定した。 まず、tweetのクラスタリングを行い、ユーザがどのようなtweetに興味を持っているのかを分析した。tweetのクラスタリングは、自然言語ベースの分類は困難であると言われている。そこで、本研究では、ユーザのRT情報を用いたtweetの分散表現を用いたクラスタリングを行った。その結果、twitter上のユーザは興味のある情報しか見ないということがわかった。この分析結果を用いることによって、多くのユーザから関心を得ているtweet情報を抽出することが可能であると考えられる。
|