研究課題
原文から単語を選択して連結するだけの従来型要約手法に対して、人間の要約に近い「まとめ型要約」を目指して検討を行なった。新幹線の電光掲示板で見られるニュース記事の要約文(以下、新幹線要約)では文末表現に「【triple bond】へ」などのように原文に存在しない表現が出現するなど、要約文として顕著な特徴が見られる。そこで、新幹線要約文を対象にして、収集した約2万記事、約4万文に対して要約事例の分析を行なった。このうち、16年度は文末表現に着目して以下の研究を行なった。(1)要約事例の分析新幹線要約は新聞よりも約2倍文末での名詞の使用頻度が高いことが分かった。特に、サ変名詞は出現比率が約8倍であること分かり、顕著に多い。一方、助詞の比率に着目すると新幹線要約は文末での使用頻度が約6倍高い。中でも格助詞が約20倍であった。これは格助詞で文を終えることで後続する表現が省略されていることを明確にし、さらにそれらの省略表現を格助詞の使用で補うことが可能である場合にこのような表現になっていると考える。(2)プロトタイプの実装と予備的評価前項の分析結果を用いて、以下の10項目の要約手法を提案し、また実装した。(a)断定表現及び敬語表現の削除(b)「示す」の削除(c)サ変動詞の換言(d)「なる」の削除(e)「明らかに」の後の削除(f)和語の換言(g)「しまう」の削除(h)「立つ」の削除(i)未来の行動を示唆する表現の対処(j)文末の複合名詞への換言この手法に対して評価を行なった結果、提案手法全体で要約率94%、すなわち文字単位で比較した場合に原文に対して6%の文字列削減を実現した。また、(i)未来を示唆する表現の削除が多く削除されている。これは他の手法に比べて削除される部分の判定の条件が緩くなっているためと考えられる。
すべて 2005 2004
すべて 雑誌論文 (3件)
自然言語処理(言語処理学会誌) Vol.12,No.1
ページ: 51-78
言語処理学会第11回年次大会発表論文集
ページ: 209-212
情報処理学会 研究報告 NL163-22
ページ: 161-168