本年度は語構成の規則の記述、語の下位分類化および表層の文型の分析用のデ-タの蓄積を行った。形態素解析用のコンピュ-タ辞書を用い、約5千の文(実際に書かれた文章)をコンピュ-タで分析しながら、さらに語構成(動詞、形容詞、形容動詞、名詞と助動詞および助詞の組み合わせ)の規則をコンピュ-タのプログラム上に構築しながら、分析、記述を行った結果、ある種の助詞、たとえば「と」のようないろいろの機能を持つ助詞、「は」のように名詞のみならず、動詞などの用言のなかにも現れる助詞などの規則化が非常に複雑であり、助詞の現れ方(共起および順序)の形式化をさらに厳密に行わなければならないことが明らかになり、現在、分析を続けている。さらに、接頭・接尾辞と名詞などの共起関係の処理もそれぞれの下位分類で処理した方が効率および正確性があがること、また副詞的に用いられる名詞なども下位分類することにより、構文解析の負担を軽減することが、デ-タ-の分析からわかり、それらの処理も本年度および次年度以降の研究にとり入れることにした。また、述部に現れる形態素(特に助動詞)の種類と述部の機能(例えば従属節の修飾先の決定)がかなり密接に関わっていることが解明されたため、これらの形式化が次年度以降の構文解析の軽減につながるところから、これもコンピュ-タによる形態素解析のデ-タを分析しながら形式化を試みている。 本研究の特徴は用言の語幹と名詞などを辞書におき、助動詞、助詞および繋辞(本研究ではこれを文法的形態素として扱う)などは、その接続関係を形式化した上で、プログラムで処理を行うところにあるが、辞書に登録されるべき項目、とくに用言が仮名書きされた文の解析は形態素との分別が問題になることも多く、バランスを考慮しながら、辞書の整備も行いつつある。
|