2005 年度実績報告書

WWWを日本語コーパスとして使うための基礎的研究

研究課題

研究課題/領域番号	17520304
研究種目	基盤研究(C)
研究機関	日本大学
研究代表者	荻野綱男日本大学, 文理学部, 教授 (00111443)
キーワード	WWW / 検索エンジン / 日本語コーパス / 話しことば / 書きことば
研究概要	検索エンジンで日本語の実態を把握するための研究を行った。第1に、文体差を研究するために、サイトごとに分割・限定して用例を検索する手法が有効であることがわかった。Googleでは、「site:2ch.net」というのをつけると、2ch.netという2ちゃんねるの掲示板だけを検索することができる。この手法で、いろいろなサイトを調べ、話しことば的なサイト(話しことばがたくさん含まれているサイト)を探してみた。各種ブログなどが適していると思われるが、中でも、milkcafeにはきわめてくだけた言い回しがたくさん使われていた。しかし、量の面では、なんといっても2ちゃんねる(2ch.net)が話しことばが一番たくさん現れることがわかった。なお、書きことばの面では、go.jpが一番いいことがわかった。政府文書などが大量に蓄積されているサイトであり、納得できる結果である。第2に、検索エンジンの安定性という問題があることがわかった。上述の調査をしていくときに、ある検索のしかたを何回かやっているうちに気づいたことである。Googleでは、検索するたびに、結果の検索件数が大きく変動することがある。それは、時として100倍(1/100)にも及ぶことがある。しかも、そういう変動が1日のうちに起きたりする。これでは、とうてい安心して日本語コーパスとして利用することはできない。この問題はYahooでも起こるが、こちらはせいぜい2倍程度であり、誤差と考えてもいいかもしれない。これらについては、さらにデータを集め、近日中に発表する予定で研究を進めているところである。

研究成果
(1件)

すべて雑誌論文 (1件)

[雑誌論文] 検索エンジンGoogleの使い方とWWWコーパスによる日本語研究2006
- 著者名/発表者名
  荻野綱男
- 雑誌名
  
  城生佰太郎博士還暦記念論集 (3月(予定))