Research Abstract |
Webでは,人物や商店といった実世界の単一のオブジェクトに対して,複数のページに記述がある場合や,複数の異なるオブジェクトが同じ名前で参照される場合がある.検索精度の向上のためには,参照の曖昧性を解消する一種の「名寄せ」の方式の開発が必要となる.これはオブジェクト識別問題と呼ばれ,重要な例としてWebに現れる同姓同名人物の識別問題が存在する.Webにおいては,予め全てのページに対してオブジェクト識別を行っておくことは処理時間やスケーラビリティの点から現実的ではなく,人名を入力とした検索結果を,ページ間の類似度に従ってその場でクラスタリングする方式が有効である.クラスタリングは,データの特徴ベクトルとしての表現,、データ間の類似度の定義,クラスタリング指標といった構成要素からなり,それぞれの要素に異なる手法が存在する.そこで我々は,クラスタリングにおける様々な構成要素の組合せに対して,実際のWebの検索結果を対象とした実験を行い,手法の比較と分析を行った.さらに,実験結果に基づき,Webにおける人物の識別精度を向上させるための方式の提案を行った.1つは,Webページからのプロファイル抽出を用いる方式であり,ルールによって抽出された人物のプロファイルに関連する語を特徴ベクトルにおいて重視する.もう1つは,Webの構造情報を用いる方式であり,ページ内で人名が含まれる段落と他の語とが含まれる段落との階層関係およびWebページ間のURLの類似度を考慮して,特徴ベクトルの重み付けを行う.評価実験の結果,提案手法により,識別精度が大きく改善されることが確認された.さらに,ユーザの文脈を考慮し質問修正と再ランキングを行うことで参照の曖昧性を解消する方式,複数Webページの比較閲覧を行うためのアルゴリズムとインタフェースの開発等を行った.
|