本年度においては,大別して以下の二つの成果が得られた. 【1. 階層的見出し構造を考慮した近接検索】 検索に関し,意味単位間の関係を利用する既存手法として,近接検索が挙げられる.これは,語の出現の間の関係の強さを,その間の語数(距離)で測り,その出現を含む文書のスコアリングのために考慮するものである.これに対し本研究のアイデアは,語の出現の間にすでに特別な関係がある場合,その関係の強さは単純な距離ではなく距離の関数が反映するというものである.このアイデアに基づき本研究では,特別な関係として (1) 見出し中の出現とその対応するブロック中の出現という関係と,(2) 互いに異なるブロック中にある出現同士という関係に着目し,それぞれ関係の強さを距離の一次関数で測る手法を提案した.パラメータ最適化と評価によれば,提案手法は既存の近接検索手法をしのぐ性能を達成した. 【2. 階層的見出し構造に基づくサブトピックランキング】 キーワードクエリのサブトピックとは,元のクエリの意図を特化または明確化する意図をもつ別のクエリである.検索システムにとって,サブトピックは,クエリ補完・推薦の出力として有用であり,また複数の意図を同時に満たす検索結果を生成するためにも有用である.これらの応用のため,サブトピックを,ユーザがその意図をもつ確率(意図率)によってランキングすることが必要である.この問題を解くための本研究のアイデアは,Webページ中の階層的見出しはサブトピックに類似し,またブロックの記述量はその対応する階層的見出しが表すサブトピックの意図率を反映するというものである.このアイデアに基づき本研究では,あるサブトピックを,それを含む階層的見出しに対応する全てのブロックの記述量に基づき,ランキングする手法を提案した.評価によれば,提案手法は商用検索システムのクエリ補完・推薦をしのぐ性能を発揮した.
|