研究実績の概要 |
平成29年度は、前年度までに行われた研究で得られたリソースに対する評価実験を行った。具体的には大規模コーパスから機械的に収集された接続表現リストに対する評価を行った。研究計画調書では日本語学習者に対し作文を執筆させ接続表現に関する誤用を検出するとう評価実験を行う予定であったが、前年度で得られた接続表現リストだけでは、学習者の記述する接続表現の多様性に対応させることは難しいことがわかった。そこで学習者に対する評価実験の代わりに、さらなる接続表現の獲得に向けてアルゴリズムによる機械的な収集方法を考案し、機械的に収集した接続表現の獲得精度を測る評価実験を代わりに行うこととした。 機械的に接続表現を収集する方法については、各種言語リソースを組み合わせたルールベースの手法を提案した。文頭から最初の読点まで5形態素以内で出現するすべての表現を大規模コーパスから抽出すると延べ976,367表現、異なり275,279表現が収集できる。そこから5つの言語リソース(UniDic、分類語彙表、つつじ:日本語機能表現辞書、JUMAN辞書、IPADIC)を用いて、接続表現とみなす表現をフィルタリングすると異なりで5,910表現が抽出された。このすべての接続表現を評価することは現実的に難しいので、2つの接続表現リストと比較することで抽出精度の評価をおこなった。1つめは前年度人手により獲得した537表現で、このリストと比較すると再現率0.633、適合率0.909となった。2つめは「文章は接続表現で決まる」(石黑圭著)で紹介されている121表現と比較をし、その結果、108表現(89%)が獲得できることがわかった。適合率が9割前後であることを考えると、5,910表現のうち約5,300表現は正しい接続表現であるとみなせ、この接続表現リストを用いれば日本語学習者の作文における多様性に対応できるものと考えられる。
|