研究概要 |
本研究は,料理のレシピやソフトウェアのインストール方法などの手法情報を対象として,ドメインに依存しない汎用的な手法情報の検索方法の開発を目的としている.今年度は,「手法掲載部分の抽出方式の改良と手法の構成要素の抽出」および「ランキング尺度の動的重みづけ」について取り組んだ. 前者では,まず,手順を表す文章はHTMLの木構造の中で並列な位置に出現することが多いということに注目して,手法掲載部分の拍出アルゴリズムを改良した.これにより抽出精度および処理速度が向上した.また,文単位で手法を分析し,(動作,対象)というペアで手法の構成要素を表現するモデルを考案し,それを抽出するアルゴリズムを開発した.たとえば,「じゃがいもを切る」という文からは(切る,じゃがいも)というペアが抽出される.このアルゴリズムでは品詞や後続の助詞のパターンに基づいて動作や対象を抽出する.また,目的語などが省略された文に対しては,前の文から対象を補う.このモデルを用いて,手法情報間の内容の一致を検出する. 後者については,昨年度に,手法の全体像を把握するための概要把握と手法の詳細を把握するための詳細把握の2つの尺度の重みつきの和による検索結果のラシキング方式を開発した.しかし,それぞれの尺度自体が画像の量や重要語の被覆率など複数の尺度を組み合わせたものであり,これらをどのように重みづけするかが課題であった.これに対して,候補集合内での各尺度の値の分布に基づいて重みを決定する方法を開発した.
|