検索エンジンで日本語の実態を把握するための研究を行った。 第1に、文体差を研究するために、サイトごとに分割・限定して用例を検索する手法が有効であることがわかった。Googleでは、「site:2ch.net」というのをつけると、2ch.netという2ちゃんねるの掲示板だけを検索することができる。この手法で、いろいろなサイトを調べ、話しことば的なサイト(話しことばがたくさん含まれているサイト)を探してみた。各種ブログなどが適していると思われるが、中でも、milkcafeにはきわめてくだけた言い回しがたくさん使われていた。しかし、量の面では、なんといっても2ちゃんねる(2ch.net)が話しことばが一番たくさん現れることがわかった。なお、書きことばの面では、go.jpが一番いいことがわかった。政府文書などが大量に蓄積されているサイトであり、納得できる結果である。 第2に、検索エンジンの安定性という問題があることがわかった。上述の調査をしていくときに、ある検索のしかたを何回かやっているうちに気づいたことである。Googleでは、検索するたびに、結果の検索件数が大きく変動することがある。それは、時として100倍(1/100)にも及ぶことがある。しかも、そういう変動が1日のうちに起きたりする。これでは、とうてい安心して日本語コーパスとして利用することはできない。この問題はYahooでも起こるが、こちらはせいぜい2倍程度であり、誤差と考えてもいいかもしれない。 これらについては、さらにデータを集め、近日中に発表する予定で研究を進めているところである。
|