研究概要 |
本課題では,(1)スケーラビリティの高い連想記憶エンジンの構築と(2)ソーシャルメディアからの信頼性の高い情報の抽出を目的としている.平成20年度は特に,スケーラビリティの高い連想記憶エンジンについて注力して研究を推進した.これは,抽出した連想記憶を実際のアプリケーションに適用するためには,効率的な解析手法および連想データの抽出手法が重要となるためである. 今年度の研究成果として,ソーシャルメディアにおけるハイパーリンクの共起性に基づく連想関係抽出手法を確立した,本手法は,同じページや同じセンテンスなど,定められた領域の中に共に出現するハイパーリンク同士は関係性が強い,という事実に基づいている.この結果,従来手法で課題であったスケーラビリティの面で高いパフォーマンスを実現することができた.これは,共起性解析がデータの数に対して線形にスケールする特性を利用したものである.また,詳細な実験により,各種の共起性解析モデルを評価し,高いスケーラビリティを実現しつつ,従来手法と同等の精度を実現することにも成功した. さらに,SVM(Support Vector Machine)により,多属性(リンク共起性,TF-IDF,相互リンク,pfibf,リンクの出現位置,所属カテゴリ)を考慮した連想関係抽出アルゴリズムを構築し,さらなる精度向上を実現した.この結果,共起性解析やページ間のリンク解析,相互リンクなどの情報が連想関係を抽出するには重要な要素であることが判明した.
|