日本語の文語文(古文)の計算機による構文解析(品詞列による文表現を入力とし、可能な係り受け関係を示す候補文群を優先度付きで出力する機能)を検討する実験を行った。実験対象は昨年の通り「伊勢物語」の漢字かな混じりの「解釈テキスト」の文(和歌を除く)である。実施項目は次の通りである。 1.昨年度実施内容の検討:昨年度は、文節の係り特性としての下接特性、受け特性としての代表品詞を含む文節文法を考え、係り受け距離による優先付け等の仮設を設けた。本年度は、まずこの方法と結果を分析した。 2.構文解析法の改良:上の評価の結果、特に、係り受けに関する経験則を改良し、直結文節の優先、読点文節や接続助詞文節への着目、主語か述語になり得る文節の扱い等、優先度付けに対して細かい配慮を行った。 3.実験と評価:昨年度と同じ107の文について構文解析実験を行った。その結果は次の通り。 ・正解文が候補に含まれ、かつ優先度が最大と評価されたもの:96文(昨年度は49文) ・正解文が、優先度最大でないが、候補に含まれたもの:4文(昨年度は39文) ・メモリ不足などによって解析に失敗したもの:7文(昨年度は19文) 入力文当り出力された係り受け候補文の数は、最大で84(昨年度は14764)であった。以上、昨年度よりも候補文を少数に絞りつつ、正解文を逃さず、かつ、優先的に出力する結果を得た。 今後は、上記改良策の効果の分析による文法と経験則の整備の上、更に精度を向上する方法(共起関係や格文法の適用、品詞分類の再考、辞書の拡充など)の検討を要する。しかし、古文については、これらの機械処理に適した辞書は存在しない。電子化辞書の公開された現代文についてまず実験し、知見を得ることを検討したい。
|