Research Abstract |
本研究課題は,情報推薦において信頼性または発見性の高い推薦を行うためのアルゴリズム,データ,インタフェース,社会的な枠組み,そして関連するテキスト処理技術に関する研究を行うものである.本年度は,まずWebを対象とした情報推薦において,より信頼性の高い推薦を行うために,ユーザにとって価値のある文書部分だけを抽出する方法について検討した.特にWebの特徴は,ページ同士がテキスト中に埋め込まれたアンカー(リンク)によってネットワークとして構築されている点にある.そのリンクには,作り手が重要と思う情報が埋め込んであると思われる.あるいは,読み手にとって重要である,または役に立つ情報が埋め込んであると思われる.そこで,リンクにはリンク元のWeb文書とリンク先のWeb文書の2つが関連しているが,リンク元のWeb文書の全体が必ずしもリンク先のWeb文書と意味的に関連しているわけではない.1000件のWeb文書を対象にアンカーの周辺で,どの部分がリンク先のWeb文書と意味的に関連があるかを3人の評価者を招き,調査を行った.その結果,表,段落,箇条書きなどのレイアウト上の区切りと,改行の数や他のリンクの有無などが,意味の区切りと関連があることが分かった.この調査結果から,アンカー関連テキストを上記のようなレイアウト構造だけを使って抽出するヒューリスティックスを開発し,さらに抽出結果を3人の評価者を招き,評価した.その結果,抽出精度は約95%,抽出再現率は85%となり,従来手法であるアンカーテキストだけを抽出する方法や,アンカー前後25単語を抽出する手法,段落を抽出する方法,アンカー前後の3センテンスを抽出する方法,アンカーを含むDOMオブジェクトを抽出する方法,DOM構造上上位すべてのオブジェクトを抽出する方法,Royらの提案する方法のいずれよりも,良い結果となった.
|