研究概要 |
新幹線車内や街頭での電光掲示板で流れるニュース記事(以下、新幹線要約と呼ぶ)は非常に高密度な言語表現であるため、これを題材にして実際に人間が作った高密度表現の観察、調査を行った。また、この際に得られた様々な知見を元に高密度表現への言語変換技術の提案、実装を行なった。特に、体言止めや助詞止めといった文末表現に着目し,一般的な新聞記事の表現をこのような高密度表現に加工する手法を提案した。 (1)まず、実際に2万記事に及ぶ新幹線要約記事の表現の特長を調査した。この結果、文末におけるサ変名詞での体言止めが一般の新聞記事の8倍,格助詞での助詞止めが一般の20倍出現することを調査によって確認し、新幹線要約記事における言語表現の特異性、高密度性を確認した。 (2)次に、このような高密度の文末表現を実現するための言語変換手法を提案した、この手法によって新聞記事を入力として要約実験を行った結果、文末表現に限定した要約率は12%であり、1文当たり平均して2.5文字削除することができた。また、この結果を人間が行なった文末整形の結果と比較したところ、要約率は人間とほぼ同様の結果が得られた。さらに、出力表現の評価を行なった結果、正解率は95%となった。 (3)以上得られた知見を換言処理に関する国際会議(International Workshop on Paraphrasing)に採録され、韓国にて学会発表を行った。また、学術雑誌(言語処理学会論文誌「自然言語処理」)に採録し、掲載された。
|