研究概要 |
本研究は,検索されたキーワードからメタデータを推定し,メタデータによる絞り込みを自動的に行うウェブ検索エンジンの実現を目的とする。本研究の目的を達成するために,本年度は特に(1)ソーシャルメディアのコンテンツを収集するクローラの開発,(2)ソーシャルメディアからの新語抽出,(3)ソーシャルメディアを用いた検索クエリのカテゴリ推定,の3点に取り組んだ。 本研究の実施に,位置情報が付与されたTwitterのツイートが大量に必要である。Twitterは開発者向けのAPIを公開しており,ツイートを容易に収集できるが,位置情報が付与されたツイートは全体の1%にも満たず,大量の位置情報付きツイートを準備するためには,継続的な収集が必要である。我が国の位置情報が付与されたツイートをすべて収集するシステムを開発し,本年度は3,500万件以上の位置情報付きツイートを収集できた。 本研究を達成するためには,新語に対する位置情報の付与,検索キーワードが位置に関係した語であるか否かの判定が必要である。本年度は新語抽出の検討,検索キーワードのカテゴリ(スポーツ,アイドル,地理,…リーダ推定に取り組んだ。前者に関し,既に知られている語の出現パターンに着目し,Twitterのツイートに含まれる任意の文字列が,新語であるか否かの判定を行う手法を開発した。後者に関し,ソーシャルメディアを用いることで,検索ログ(クリックログ)を用いるよりも早期にカテゴリ推定が可能であり,更にユーザのツイート傾向を加味することで,より高い精度で推定できることがわかった。
|
今後の研究の推進方策 |
ユーザが実際に利用できるウェブシステムを早期に公開し,実データによる有用性の評価を行いたい。本年度,ソーシャルメディアからの新語抽出,ソーシャルメディアを用いた検索クエリのカテゴリ推定が実現可能であることがわかったため,この知見を基に,メタデータ(位置情報)との関連付けを行う。また,収集したデータの公開を検討する。
|