テキストには、その種類(ジャンル)に応じて、特徴的な構成要素がある。特徴的な構成要素とは、たとえば、学術論文では、「背景」、「目的」、「方法」、「結果」、「考察」、「結論」などであり、さらに詳細な要素を認定でいる。これは、その種のテキストの利用者にとって自然な内容構成であり、テキストの主要な内容を概念間の関係を維持したまま抽出するための枠組み、テンプレートとなり、情報検索システムの高度化、情報抽出、自動抄録などへ応用可能である。しかしながら、テキストからテンプレートに該当する内容の自動抽出は研究されているが、テンプレートの生成は、人手で行われている。そこで、本研究では、テンプレート生成の自動化を試みた。 (1)対象文書種類の拡大 前年度、学術論文に対して適応した特徴的構成要素の手がかり語句認定法を、新聞記事、Web文書に適応した。対象文書は、報道記事、社説などの意見記事などの下位カテゴリ別に検討した。コーパス言語学的手法を採用し、仕事量基準値によって不定長文字を抽出し、カイ自乗による文字列出現頻度と文体の差異の比較を行なった。手がかり語句は、(a)品詞情報なし、(b)品詞情報付き、(c)品詞情報のみについて検討した。さらに、テンプレートの記述力を拡大するためには、用語の意味的カテゴリを考慮する必要性があることが示唆された。 (2)体系的語彙知識を用いたテンプレートの生成 テンプレートの記述力向上には、手がかり語句の意味的カテゴリの使用が有用である。従来、対象文書種類、主題領域、特徴的構成要素の特性等に応じて、人手で意味的カテゴリを構築していた。そこで、本研究では、シソーラスなどの体系的語彙資源を用い、その効果を検討した。日英の医学領域の学術論文を対象として、汎用的シソーラスであるWordNetと角川新類語辞典、及び、医学領域のソシーラスである米国国立医学図書館の"MeSH"と医学中央雑誌刊行会の「医学用語シソーラス第4版」を用いた。
|