本研究の目的は、自然言語処理のための日本語の語構成および統語規則の形式化である。本年度は約5千の文(実際に書かれた文章)をコンピュータで分析しながら、さらに語構成(動詞、形容詞、形容動詞、名詞と助動詞および助詞の組み合わせ)の規則をコンピュータのプログラムで処理しながら、分析、記述を続け、ある種の助詞、たとえば、「と」のようないろいろの機能を持つ助詞、「は」のように名詞のみならず、動詞などの用言のなかにも現れる助詞などの規則化が非常に複雑なものについて、その現れ方(共起および順序)の形式化をさらに厳密に行なった。さらに、語構成と文の構造の関連を統合的に再検討するとともに、コンピュータ・プログラムを完成させ、さらに1万文のデータを追加し、合計2万文のデータによる検証を行いつつあるが、実際に書かれた文の統語規則が非常に複雑であるため、統語規則の形式化にはさらに研究を続けなければならない。 本研究の特色は統語上の単位を従来、日本語処理で行われている単語とせず、用言では助動詞や助詞を含めたもの、体言では格助詞や副助詞を含めたものにした点である。これによって、形態素解析では3型文法を、構文解析では2型文法で処理できるようにした。 さらに、本研究は主に日本文を解析(分析)することを目標にしているが、本年度はこの解析の日本語文法と文を生成するための文法との関連性の検討も行いつつある。
|