研究に必要なデータの処理のための環境としてUNIXワークステーションを用意し、開発環境の設定を行った。開発環境のテストはいくつかの処理系を用いて行ったが、最終的にはBSD UNIXを用いて今後の研究を行うことに決定した。またデータ処理言語としては、Perl言語を採用することを決定した。 次に、データとしては、主に市販されている新聞記事CDROMを用い、これらから10億語程度のデータを収集し、今回の研究で開発したKWICプログラムを用いた。またこれらのデータ処理によって文型のデータベースを作成し、必要な文法情報を収集した。 以上の中から得たデータを用いて、日本語の記述文法に必要な情報を重点的に集めて、いくつかの文法記述をテストケースとして行った。具体的には、現代日本語の名詞節、および指示詞の用法を研究し、それぞれを古典語と対比する形での文法記述として論文化し、公刊した。そのうちの一部より報告書を作成した。 また、以上の成果の公表のために、インターネット上にWWWサーバーを構築し、研究成果を公開する態勢を整えた。サーバーのURLは次の通りである。 http://klab.ri.aoyama.ac.jp 現在、このURLを通して、研究成果のうち、KWICプログラム、データの文字種類整列プログラムなどを公開しており、さらに今後公開の範囲を広げる予定である。
|