研究実績の概要 |
本研究では,ソーシャルメディア上で話題となっている情報を言語横断的に抽出し,その情報について言語や地域,文化,ソーシャルメディア上のユーザが所属するコミュニティ等の様々な観点からの分析を可能とする枠組みの構築を目的としている. 既存のソーシャルメディア上の話題抽出に関する研究は,単一言語を入力言語として想定しており,また,抽出した話題情報を入力言語で記述された語句として表現するため,抽出した話題情報を異なる言語間で比較・分析できないという問題があった.本研究では,話題情報を任意の言語間で比較可能な情報として表現・抽出することにより,言語横断的な話題抽出を可能とする. 具体的には,Wikipediaを用いてソーシャルメディアの各テキストが表す話題情報を対応するWikipediaの記事に紐付けるエンティティリンキングを行う.Wikipediaでは,言語間リンクと呼ばれるリンクにより同じ概念を表す様々な言語の記事が相互に繋がっているため,異なる言語の話題の比較を記事の比較によって可能にできる.また,ある話題が発生した際に,ソーシャルメディア上でその話題を表す語句の出現回数とそれに対応するWikipediaの記事の閲覧回数が同時に増加するという時間的な性質に着目し,誤った話題情報の紐付けを抑制する. 本年度は前述のエンティティリンキング手法について設計・実装,および,Twitterのデータを用いた評価用データセットの作成を行った.また,International Workshop with Mentors on Database, Web, and Information Management for Young ResearchersおよびMicrosoft Reserach Asia Ph.D. Forum 2016にて口頭発表を行い,海外の研究者との議論を行った.
|