日本語をコンピュータで処理するための日本語文法の徹低的な形式化が本研究の目的である。本研究は、実際に書かれた、随筆、小説、科学技術論文などの大量の文章をデータとして、日本語の語構成(形態論)および文の構造(統語論)の規則を次のような手順で、分析、記述している。1.語の定義、2.語の分類、3.形態素の語中の位置および共起関係の分析、記述、4.語間の共起関係による表層構造の文型の記述、5.語間の意味関係による格フレームの記述を行い、さらに、これらの記述を基にして、6.上記記述を基にした語構成規則の統合化、7.上記記述を基にした文構造規則の統合化、8.日本語コンピュータ辞書の整備、9.形態素解析および構文解析のアルゴリズムの作成およびそのコンピュータ・プログラム化を行った。 なお、実際に書かれた文の構文規則は非常に複雑であり、現在も規則の記述の整理を続けているところであり、この構文規則の形式化およびそのプログラムは近日中にまとめて出版の形で公表するつもりである。 本研究では、日本語の統語上の単位である語を従来の単語とは異なり、同時性と不可分性という基準から定義したので、形態素解析の規則が3型規則で記述でき、2型あるいは1型規則が必須な構文解析と完全に分離できたことに大きな特徴がある。
|