構文片とは、係り受けの最小単位であり、文節対から構成されている。構文片は容易に抽出することができ、形態素やn-gramなどとなんら変わりなく用いることができる処理単位である。しかし構文片は文節の対であるため、抽出される要素の数が非常に多くなる。またこのような方法で生成される文節対のなかには、「こと-が→ある」のように意味を持たない文節対も抽出されてしまう。そこで、今年度はこれらの構文片が持つ問題を解決するための手法を考案した。 具体的には、「騒音-が→大きい」と「大きい→騒音」のような、内容語がほとんど同じものなのに異なる要素として扱われていたものを同じ表現として汎化した。また、「こと-が→ある」の「こと」のように、内容語として扱われているが実質的には意味をほとんどもたない単語を「形式的内容語」として収集した。形式的内容語を含む文節は、直前の文節に対する機能表現として扱うとした。 次に、改良した構文片を用いて評判分析に適用させ、その有効性を調査した。評判分析を用いた理由として、まずは辞書を用いて極性(肯定か否定かを示すスコア)を与える手法であることから、同類表現の汎化により「大きい→騒音」という辞書内の構文片から「騒音-が→大きい」という構文片に極性を付与できることがある。また形式的内容語への対処により、意味をもたない要素の極性付加を減少できることも利点である。従来の構文片を用いると、「こと→ができる」といった表現に対し肯定の極性を付与されることがあったが、これは本来誤りであり、このような問題を解決できることが期待できる。 評判分析は文分類を対象とし、肯定文、否定文、その他と分類することを目的とした。その結果、従来の構文片よりも適合率・再現率ともに向上し、本手法の有効性を検証することができた。しかし一方で、単語2-gramや3-gramよりも再現率が劣る結果となった。
|