日本語の文語文(口語文に対する文語文でなく古文の意)に計算機処理に適切な文法の検討に着手した。文語文には格助詞の省略などの特徴があり、その解析には格文法が重要と考えられるが、まず、通常の文法の範囲で文を解析して問題点を摘出することとした。表記法としては教科書や出版物に用いられる旧仮名遣いの漢字仮名混り文とする。本年度は、次に記す事項について実施した。 1.基本文法の検討:文節文法に基づいて古文の文法の基本部を検討中である。古文と言っても範囲が広いが、ここでは、平安文学の伊勢物語を取上げた。その飜刻テキストと解釈テキストがコンピュータ可読形式で提供されている。文法の基本部を設定し、それに従って、べた書きの漢字仮名混り文である解釈テキストから文節を切出し、文節間の係受け関係を求める実験を実施中。文節の係り特性としての下接特性、受け特性としての代表品詞を考え、また係受け関係の非交差、係結びの規則、従属節の取出し等を考慮し、係受け間の距離による優先付け等の仮設を設けた。これらは係受けの曖昧性の低減に役立つはずだが、なお文節切出し係受けのいずれにも曖昧性が残る。今回設定の文法では、体言(連体)止め、倒置法、和歌等を範囲外とした。現在、上記実験を伊勢物語の例文に適用中だが、その評価と文法の改良及び拡張は次年度の課題とする。 2.用語辞書:コンピュータに利用できる形の一般の辞書情報がないため、当面、文法と変換実験の評価に必要最小限のものとして、フロッピ-ディスクの形での入手の可能な伊勢物語の用語情報を用いた。将来は十分な用語を加えた辞書を用いる必要がある。 3.評価手段:入手文例が漢字仮名混り文であるため、漢字仮名変換を評価手段の一つとする。ただし、構文解析が失敗しても漢字仮名変換は正変換率が高いので、これを構文解析の直接の評価手段とはせず、文節切出しの正解率をも考慮することとした。
|