研究概要 |
料理のレシピやソフトウェアのインストール方法などの手法情報を対象とし,ドメインに依存しない汎用的な手法情報の検索方式の開発を目的としている.今年度は主に与えられたWebページから手法掲載部分を抽出するアルゴリズムの開発を行った.具体的には,まず,手法情報に共通して見られる特徴が含まれる部分(HTMLのテキストノード)を発見する.対象とする特徴は,箇条書きの存在,手順を示す表現(「はじめに」,「次に」,「最後に」など)の存在,過去形表現が少ないことの3点である.次に,HTML構造のノードの親子関係や内容的な区切りとして用いられるタグの存在に注目して,手法情報が掲載されている部分を発見する.また,手法掲載部分が存在するWebページを手法掲載ページとし,これらをランキングの対象にする.評価の結果,手法掲載ページの発見精度は8割程度であった. さらに,手法掲載ページのランキングの基準となる把握容易性についても検討を行った.把握容易性は手法の全体像を把握するための概要把握と手法の詳細を把握するための詳細把握の2つの尺度からなり,その重みつきの和として表現される.各尺度は画像の存在や手法情報に共通して現れる語の数などによって定義した.評価の結果,ユーザごとやトピックごとに重視する尺度が異なっていることが明らかになった.この結果を踏まえ,ユーザごとに重視する尺度のバランスの調整が可能である,手法情報の検索・閲覧のためのユーザインタフェースの試作を行った.
|