本年度は、まず、第1年度に引き続き、「探索的データ解析によって検証・追試する計量的な日本語研究の選定」と「それら諸研究が掲げるデータの整理」とを行った。具体的には、計量日本語学研究会編『計量日本語学集成』所収の1300編あまりの論文等と国立国語研究所図書館所蔵の文献を調査して得た約200編の論文等を通読し、検証・追試に耐える具体的なデータを掲げているもの約120編を選定した。選定した論文数が少ないのは、論文の多くが、アプリオリに設定した分類項目の度数や比率ないし代表値のみを示すものであったり、あるいは、多変量解析を施してはいるものの生データを示さないものであったりしたためである。計量的な日本語研究の多くが、「探索的」なデータ解析よりも、「確認的」な統計処理を重視していることが明らかになったといえる。次いで、選定した諸研究を、利用している統計手法および日本語研究の分野別に区分した上で、それぞれのデータをパソコンに入力し、フォーマット等を整えてデータベース化する作業を進めた。 本年度は、また、検証・追試対象とした諸研究に探索的データ解析を施すための準備として、上記データから数編を選び、探索的データ解析用プログラム"EDA""JMP"等による解析を試行的に実施し、その結果を中国・武漢大学で開かれた「漢語語彙学第一回国際学術シンポジウム」において発表した(「日本語コーパス言語学における探索的データ解析の有用性」)。さらに、探索的データ解析を施す独自の試料として、新聞・新書・文学作品等の本文をデータとする日本語コーパスの作成に着手した。
|