テキストには、その種類(ジャンル)に応じて、特徴的な構成要素がある。特徴的な構成要素とは、たとえば、学術論文では、「背景」、「目的」、「方法」、「結果」、「考察」、「結論」などであり、さらに詳細な要素を認定できる。これは、その種のテキストの利用者にとって自然な内容構成であり、テキストの主要な内容を概念間の関係を維持したまま抽出するための枠組み、テンプレートとなり、情報検索システムの高度化、情報抽出、自動抄録などへ応用可能である。しかしながら、テキストからテンプレートに該当する内容の自動抽出は研究されているが、テンプレートの生成は、人手で行なわれている。そこで、本研究では、テンプレート生成の自動化を試みる。初年度の平成10年度は、基本手法の確立を目的として、以下の研究を行なった。 (1) 特徴的な構成要素の認定 日英の学術論文を対象として、特徴的構成要素の手がかり語句を自動的に認定、抽出を行ない、それを通じて、特徴的構成要素のセットの自動認定を試みた。コーパス言語学的手法を採用し、仕事量基準値によって不定長文字列を抽出し、カイ自乗による文字列出現頻度とテキスト内の文体の差異の比較を行なった。手がかり語句は、(a)品詞情報なし、(b)品詞情報付き、(c)品詞情報のみについて検討した。本手法は、テキスト種類に関わらず応用可能であると考えられる。 (2) 特徴的な構成要素の情報検索での有用性の検討 情報検索システムへの応用を試みたところ、特徴的な構成要素を用いた検索は、用いないものに比べて、検索性能が32.8%向上した。 しかしながら、手がかり語句のグループ化と構成要素間の関連性の自動分析を試みたところ、テキストにおける特徴的な手がかり語句の出現回数が少ないため、十分な成果を得ることができなかった。手がかり語句間の関係付け、テンプレート記述法の検討、他種類テキストへの適用が来年度の課題である。
|