研究概要 |
本研究の目的は,XMLなどにより電子化文書に埋め込まれたタグ情報を利用し,文書の「内容」に言及可能でより柔軟な検索手法を構築することにある.ここでの「内容」とは,深い理解処理結果を指すのではなく,a)すでに与えられている論理構造タグにより表された文書内構造,ならびに,b)そこに記述された文章データ,に加え,c)情報抽出技術により得られた抽出結果をタグづけしたもの,である.平成12年度は前年度の研究結果に基づき,c)に対応する研究を行ない,以下の知見を得た. 1.固有表現抽出における学習型手法と人手作成パタン型手法の融合 固有表現抽出手法には,事例から網羅的に規則を獲得する学習によるものと,人手で抽出規則を記述するものがある.学習型は網羅性のある規則を獲得できるが,精度がさほどあがらない.一方,人手による規則では網羅性はないものの,精度がよい.そこで,これらを組み合わせる手法を,昨年度,提案した.本年度も引続き検討を行ない,評価を行なった.その結果,統合手法のほうが単独のシステムよりも精度が良い事が示された. 2.数値型情報の抽出手法の提案と質問応答システムへの応用の検討 質問に答を直接示す質問応答は内容検索システムの究極の姿であるが,近年,4W1H型質問に答えるシステムが検討されている.1で検討した固有表現は4Wに相当するが,一方,How(どれくらい)に相当するのは数値表現である.同表現は,「物」と対応して初めて意味を持つため,これらを組で抽出する必要がある.そこで,数値情報の構造を定義するとともに,言語表現における要素間の関係と,数値情報構造の持つ意味的な関係から,その組を抽出する手法を検討し,評価を行なった.その結果,パタンに基づく従来手法よりも精度が良いことが確認された.
|