検索エンジンで日本語の実態を把握するために研究を行った。 第1に、田野村氏が新聞5年分のCD-ROMを使って行った研究を、WWWをコーパスとして使って、再調査した。すると、WWWの言語量の膨大さが活きてきて、新聞から得られた結果をはるかにしのぐ成果が得られた。たとえば、田野村氏の研究では用例数が少なくて何ともいえないような結果になっていたところを、確実に言えるようになったことなどが挙げられる。 第2に、文法関連のいくつかの先行研究を追試してみた。その結果、必ずしも同じ結果になるわけでなく、先行研究が間違っていることがわかった例もたくさんある。こうして、WWWがコーパスとして十分使い物になることがわかった。 第3に、WWWの中の、特にブログについていえることであるが、書き手の男女差を手がかりに、さまざまな単語が男性・女性のどちらによって使われているかを求め、単語の「男女度」を求めることができた。「おふくろ」などは男性が使うことが多く、「あら」などは女性が使うことが多いという結果である。この手法を用いることで、さらに多くの単語について、男女度を求めることができる。この研究は、WWWを用いた単語の意味論的研究と位置づけられるものである。 これらの例が示すように、、WWWは言語研究の資料として十分実用的に利用できることがわかった。 次年度以降も、さらに多用な応用例を開発していく予定である。
|