研究概要 |
本研究の目的は,XMLなどにより電子化文書に埋め込まれたタグ情報を利用し,文書の「内容」に言及可能でより柔軟な検索手法を構築することにある.ここでの「内容」とは,深い理解処理結果を指すのではなく,a)すでに与えられている論理構造タグにより表された文書内構造,ならびに,b)そこに記述された文章データ,に加え,c)情報抽出技術により得られた抽出結果をタグづけしたもの,である.2年間の研究の結果,以下の項目を含む,幾つかの知見を得た. 1.文書部分の類似度に基づく文書内構造の抽出:ある文書小部分についての関連箇所を見つける手法について,その高精度化を検討した.特に,文書部分内の情報と文書部分間に跨る情報を組み合わせて利用することにより,精度が向上することを示した. 2.固有表現抽出における学習型手法と人手作成パタン型手法の融合:固有表現抽出手法には,事例から網羅的に規則を獲得する学習によるものと,人手で抽出規則を記述するものがある.学習型は網羅性のある規則を獲得できるが,精度がさほどあがらない.一方,人手による規則では網羅性はないものの,精度がよい.そこで,これらを組み合わせる手法を提案し,精度が向上することを示した. 3.数値型情報の抽出手法の提案と質問応答システムへの応用の検討:質問に答を直接示す質問応答は内容検索システムの究極の姿である.2で検討した固有表現は4W型の質問に対応するが,一方,How(どれくらい)に相当するのは数値表現である.同表現は,「物」と対応して初めて意味を持つため,これらを組で抽出する必要がある.そこで,その組を抽出する手法を検討し,評価を行なった.その結果,従来手法よりも精度が良いことが示された.
|