Research Abstract |
本研究2年目においては,1年目に検討した文書検索/問合せ支援方式を洗練し,検索支援システムを試作した.WWWに代表される大規模文書データを検索するサービスとして,キーワード検索とディレクトリサービスが提供されている.しかし,前者ではユーザの意図する検索結果を得るのに必要な検索式を考えるのが難しい.また,後者は巨大なディレクトリ構造をもつため,ユーザはカテゴリの選択に迷いや誤解を生じやすい. そこで本研究では,ユーザの検索意図を反映した小規模なカテゴリ構造を検索のたびに構築する方法を提案した.検索システムには複数の分類観点と呼ばれる知識を予め与えておく.一つの分類観点とは,例えば,地域={京都,大阪,奈良,...}のようなカテゴリの有限集合である.検索支援の具体的な手順は以下の通りである. (1) ユーザが検索目的に関連する複数のキーワードを指定する. (2) システムは,指定されたキーワードに関連する文書集合Dを求める. (3) システムに用意された分類観点をS_1,S_2,...,S_nとし,S_i={c_<i1>,c_<i2>,...,c_<imi>}(1【less than or equal】i【less than or equal】n)とする.各c_<ij>(1【less than or equal】j【less than or equal】m_i)は,分類観点S_iに属するカテゴリである.Dに属する各文書を,それとの類似度が最大のカテゴリに対応づけることによって,DをD_1,D_2,..,D_mに分類する.ここで類似度とは,文書やカテゴリの特徴ベクトル表現に基づいて定義された値である.各文書とそれに対応するカテゴリとの類似度平均を,分類観点S_iによるDの分類明確度とよぶ. (4) 分類明確度の高い分類観点のいくつかをユーザに提示する. (5) ユーザは,提示された分類観点の一つを選択して文書を閲覧するか,選択した分類観点に基づいて分類されたD_1,D_2,...,D_<mi>のうちのいくつかを,上の手順に従って再分類する. 以上の手法に基づく検索支援システムを試作し,BMIR-J2テストコレクションを用いて,いくつかの検索課題について単純なキーワード検索との比較実験を行ったその結果,適合率を同程度とした場合,提案手法において分類明確度の高い分類観点を選択すると,単純なキーワード検索よりも高い再現率をもつ文書集合が得られることが分かった.
|