2004 Fiscal Year Annual Research Report
高密度表現を利用したまとめ型要約に必要な言語変換技術
Project/Area Number |
16700134
|
Research Institution | Nagaoka University of Technology |
Principal Investigator |
山本 和英 長岡技術科学大学, 工学部, 講師 (40359708)
|
Keywords | まとめ型要約 / 新幹線要約 / 換言処理 / 体言止め / 助詞止め / 高密度表現 / 自然言語処理 |
Research Abstract |
原文から単語を選択して連結するだけの従来型要約手法に対して、人間の要約に近い「まとめ型要約」を目指して検討を行なった。新幹線の電光掲示板で見られるニュース記事の要約文(以下、新幹線要約)では文末表現に「【triple bond】へ」などのように原文に存在しない表現が出現するなど、要約文として顕著な特徴が見られる。そこで、新幹線要約文を対象にして、収集した約2万記事、約4万文に対して要約事例の分析を行なった。このうち、16年度は文末表現に着目して以下の研究を行なった。 (1)要約事例の分析 新幹線要約は新聞よりも約2倍文末での名詞の使用頻度が高いことが分かった。特に、サ変名詞は出現比率が約8倍であること分かり、顕著に多い。一方、助詞の比率に着目すると新幹線要約は文末での使用頻度が約6倍高い。中でも格助詞が約20倍であった。これは格助詞で文を終えることで後続する表現が省略されていることを明確にし、さらにそれらの省略表現を格助詞の使用で補うことが可能である場合にこのような表現になっていると考える。 (2)プロトタイプの実装と予備的評価 前項の分析結果を用いて、以下の10項目の要約手法を提案し、また実装した。 (a)断定表現及び敬語表現の削除(b)「示す」の削除(c)サ変動詞の換言(d)「なる」の削除(e)「明らかに」の後の削除(f)和語の換言(g)「しまう」の削除(h)「立つ」の削除(i)未来の行動を示唆する表現の対処(j)文末の複合名詞への換言 この手法に対して評価を行なった結果、提案手法全体で要約率94%、すなわち文字単位で比較した場合に原文に対して6%の文字列削減を実現した。また、(i)未来を示唆する表現の削除が多く削除されている。これは他の手法に比べて削除される部分の判定の条件が緩くなっているためと考えられる。
|
Research Products
(3 results)