研究概要 |
本研究の目的は,XMLなどにより電子化文書に埋め込まれたタグ情報を利用することにより,文書の「内容」(本年度の計画参照)に言及可能でより柔軟な検索手法を構築することにある.ここでの「内容」とは,深い自然言語処理に基づく理解結果を指すのではなく,a)すでに与えられている論理構造タグにより表された文書内構造,ならびにb)そこに記述された文章データ,に加え,c)情報抽出技術により得られた抽出結果(例えば,人名,組織名等の固有表現や数値表現などを分類して抽出したもの)をタグづけしたもの,である. 平成11年度の研究は,a)ならびにc)に対応する研究を行ない,以下の知見を得た. ・文書部分の類似度に基づく文書内構造の抽出 予め定められた文書部分について類似度に基づき,関連箇所を見つける手法について,その高精度化を検討した.特に,文書部分内の情報と文書部分間に跨る情報を組み合わせて利用することにより,精度が向上することが示された. ・固有表現抽出における学習型システムと人手によるパタン型システムの融合 固有表現抽出の手法としては,事例から網羅的に規則を獲得する学習によるものと,人手で抽出規則を記述するものが代表的である.学習型は網羅性のある規則を獲得できるが,精度がさほどがらない.一方,人手による規則では網羅性はないものの,精度が非常によい.そこで,これらを組み合わせる手法を提案した.これにより,両者のシステムより精度のよい抽出が行なえることを示した.
|