研究概要 |
本研究では,対象を技術系論文と新聞記事に絞り,原文を言い換えたり,合成したりすることによって,表題を自動生成する手法を考案する.技術論文の表題には,ある種の構文的構造が存在し,多くの場合は名詞句となることが多いといわれる.研究代表者は,研究・開発の内容を具体的かつ簡潔に表現しなければならないという表題の性質に着目し,表題中にはいくつかの内容提示項目(研究の目的や対象,方法)が必須情報として含まれるべきである仮定する.また,重要文抽出に基づく生成手法では内容提示項目が含まれない可能性が高い.そこで,本文を形態素レベルでとらえることで,より小さな単位から表題を生成することが有効であると考えた. 平成14年度は,技術論文・解説・報告書の表題と技術系新聞記事の見出し分析を中心に行った.まず,技術論文の表題と要約を抽出し,表題に使われやすい構文構造の分析を行った.これを基に,副詞的表現や形容詞的表現なども考慮した構文パターンの作成を行った.特に,パターンの記述には研究代表者が考案したパターンマッチング手法を用いた.パターン記述には,多属性の情報が自由記述可能であるため,パターンの抽象化も容易に実現できる. 内容提示項目とは,表題を形成するために必要不可欠な情報であると仮定した,研究の目的や対象,方法などの情報である.論文の要約と表題を分析し,内容提示項目の体系化を行った.特に,構文パターンに含まれる定型表現「による」,「のための」を手がかりに項目を分類した. 以上の研究成果は,現在,国際会議に投稿中である. 現在は,内容提示項目を文書中から自動抽出するための方法を考案中である.また,スタイルに応じた表題を生成するため,新聞見出しを分析し,技術文書の構文構造や内容提示項目との違いを洗い出している. 平成15年度は,表題の自動生成法を中心に取り組む予定である.
|