研究概要 |
Webでは,人物や商店といった実世界の単一のオブジェクトに対して,複数のページに記述がある場合や,複数の異なるオブジェクトが同じ名前で参照される場合がある.検索精度の向上のためには,一種の「名寄せ」の方式の開発が必要となる.本年度は,二つの参照が同じオブジェクトに対応するか否かを決定するペアワイズな分類器を機械学習を用いて構築する際に,異なる参照からの異なる素性の組合せを用いるためのカーネル法を開発した.同じオブジェクトに対応する二つの参照が共通の素性をわずかしか持たない場合,共通の素性のみに基づく既存の手法では類似度がゼロに近くなるため,これらの参照が同じオブジェクトに対応していると判定することができず,高い分類精度を達成することが困難であった.このゼロ類似度の問題を回避する方法の一つは,異なる参照からの異なる素性の組合せを分類器で用いることであるが,これを直接実現すると計算量が大きくなり,現実の問題に適用することが困難となる.もとの素性空間における内積のテンソル積の形をとるカーネルを用いることで,我々の手法は計算負荷のかかる高次元の素性空間への写像を行わずに,異なる参照からの素性の組合せを実質的に用いることを可能とし,分類精度の改善につながった.また,Web検索におけるオブジェクト同定の問題を質問修正によって解決するための手法の研究を行った.ユーザが現在閲覧している文書中から検索語を指定して検索を行う場合,検索語の閲覧文書での周辺テキストと,検索結果における周辺テキストを比較することで,ユーザの意図に合致した質問修正を行い,参照の曖昧性を低減することを可能にした.さらに,複数Webページの閲覧インタフェースとして,異なるWebサイトの共通の側面を表すページを視覚的に比較可能なように空間的に配置する方式を提案し,空間配置の指針および自動配置の方式についての研究を行った.
|