研究概要 |
本研究は,検索されたキーワードからメタデータを推定し,メタデータによる絞り込みを自動的に行うウェブ検索エンジンの実現を目的とする。本研究の目的を達成するために,本年度は特に(1)ソーシャルメディアを用いた検索クエリのカテゴリ推定,(2)ウェブコンテンツ抽出の検討,の2点に取り組んだ。 本研究を達成するためには,検索されたキーワードが,どのような種類のキーワードであるかの判定が欠かせない。また,ある検索キーワードの生存期間(ユーザによって頻繁に検索される期間)は非常に短いことがわかっており,検索キーワードの特性を短時間で学習する必要がある。本年度は,昨年度よりも推定するカテゴリの幅を広げ,また,実際にトレンドになった検索キーワードに絞ることで,より現実的な課題に取り組んだ.トレンドになった検索キーワードを対象とする場合,ソーシャルメディアのデータを活用すると,ニュースなど従来のデータを使うよりも高精度に分類可能なことが明らかになった. 本研究が目指す最終的な成果物はウェブ検索エンジンであり,ブログなど,一般的なWebページを対象とする。Webページのコンテンツのみを検索できるようにするために,ウェブコンテンツ抽出の処理が欠かせない。既存のコンテンツ抽出手法を改良し,従来手法では難しかった,ブログコンテンツのポスト及びコメントを自動的に識別する手法を開発した。この成果により,より高精度なウェブ検索エンジンの開発が期待できる。
|
今後の研究の推進方策 |
検索キーワードのカテゴリ分類実験に関し,人手によって正解データの作成を行ったため,これらのデータを公開したいと考えている。また,ソーシャルメディアのデータ特性を,従来のデータと比較することで詳細に調査する。拡張したカテゴリ分類を応用し,検索キーワードと位置情報との関連づけの検討を行う。
|