研究概要 |
本研究では,対象を技術系論文と新聞記事に絞り,原文を言い換えたり,合成したりすることによって,表題を自動生成する手法を考案する.技術論文の表題には,ある種の構文的構造が存在し,多くの場合は名詞句となることが多いといわれる.研究代表者は,研究・開発の内容を具体的かつ簡潔に表現しなければならないという表題の性質に着目し,表題中にはいくつかの内容提示項目(研究の目的や対象,方法)が必須情報として含まれるべきである仮定する.また,重要文抽出に基づく生成手法では内容提示項目が含まれない可能性が高い.そこで,本文を形態素レベルでとらえることで,より小さな単位から表題を生成することが有効であると考えた. 平成15年度は,学術論文から表題を自動生成する方法を考案した.まず,タイトルを生成するためのベースとなる重要文抽出法を考案した.提案手法は,定型表現と手掛り語,TF-IDFにより重要文を抽出する.実験により,約73%の精度で重要文を抽出することを示した. 次に,抽出された重要文から内容提示項目(目的,方法,長所,対象,動作,形態,主旨)をベースにタイトルを生成する手法を考案した.提案手法は,「形態」要素を起点にして,必要な内容提示項目を係り受け情報を基に獲得する. 提案手法の有効性を確認するために,2000-2002年度の情報処理学会自然言語処理研究会報告359件の論文概要から40件を無作為に抽出して,自動生成したタイトルを以下の指標で評価した.(1)タイトルとして成立する;(2)タイトルして許容できる;(3)タイトルとして物足りない;(4)タイトルとして成立しない.結果として,(1)のみ精度は約32%であったが,(2)まで含めると約73%の精度でタイトルが生成できることを確認した.以上の研究成果は,国際会議や年次大会などで報告した. 今後は,重要文に頼らないタイトル生成法へも拡張し,提案した技術をより明確にアピールできるタイトルの自動生成を実現する.
|