1999 年度実績報告書

文書内構造に言及した類似度計算に基づく情報検索に関する研究

研究課題

研究課題/領域番号	11680383
研究機関	横浜国立大学
研究代表者	森辰則横浜国立大学, 工学部, 助教授 (70212264)
研究分担者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
キーワード	類似文書検索 / 固有表現抽出 / 情報検索 / 情報抽出
研究概要	本研究の目的は,XMLなどにより電子化文書に埋め込まれたタグ情報を利用することにより,文書の「内容」(本年度の計画参照)に言及可能でより柔軟な検索手法を構築することにある.ここでの「内容」とは,深い自然言語処理に基づく理解結果を指すのではなく,a)すでに与えられている論理構造タグにより表された文書内構造,ならびにb)そこに記述された文章データ,に加え,c)情報抽出技術により得られた抽出結果(例えば,人名,組織名等の固有表現や数値表現などを分類して抽出したもの)をタグづけしたもの,である. 平成11年度の研究は,a)ならびにc)に対応する研究を行ない,以下の知見を得た. ・文書部分の類似度に基づく文書内構造の抽出予め定められた文書部分について類似度に基づき,関連箇所を見つける手法について,その高精度化を検討した.特に,文書部分内の情報と文書部分間に跨る情報を組み合わせて利用することにより,精度が向上することが示された. ・固有表現抽出における学習型システムと人手によるパタン型システムの融合固有表現抽出の手法としては,事例から網羅的に規則を獲得する学習によるものと,人手で抽出規則を記述するものが代表的である.学習型は網羅性のある規則を獲得できるが,精度がさほどがらない.一方,人手による規則では網羅性はないものの,精度が非常によい.そこで,これらを組み合わせる手法を提案した.これにより,両者のシステムより精度のよい抽出が行なえることを示した.

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] 大森信行,岡村潤,森辰則,中川裕志: "情報検索手法を利用した関連マニュアル群のハイパーテキスト化"情報処理学会論文誌. 40・6. 2776-2784 (1999)
[文献書誌] T.Mori,S.Tanaka,H.Nakagawa: "Similarity Calculation of Segment Retrieval for Aid in reading Related Documents"Proceedings of Natural Language Processing Pacific Rim Symposium '99. 178-183 (1999)