• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

WWWを日本語コーパスとして使うための基礎的研究

研究課題

研究課題/領域番号 17520304
研究種目

基盤研究(C)

研究機関日本大学

研究代表者

荻野 綱男  日本大学, 文理学部, 教授 (00111443)

キーワードWWW / 検索エンジン / 日本語コーパス / 話しことば / 書きことば
研究概要

検索エンジンで日本語の実態を把握するための研究を行った。
第1に、文体差を研究するために、サイトごとに分割・限定して用例を検索する手法が有効であることがわかった。Googleでは、「site:2ch.net」というのをつけると、2ch.netという2ちゃんねるの掲示板だけを検索することができる。この手法で、いろいろなサイトを調べ、話しことば的なサイト(話しことばがたくさん含まれているサイト)を探してみた。各種ブログなどが適していると思われるが、中でも、milkcafeにはきわめてくだけた言い回しがたくさん使われていた。しかし、量の面では、なんといっても2ちゃんねる(2ch.net)が話しことばが一番たくさん現れることがわかった。なお、書きことばの面では、go.jpが一番いいことがわかった。政府文書などが大量に蓄積されているサイトであり、納得できる結果である。
第2に、検索エンジンの安定性という問題があることがわかった。上述の調査をしていくときに、ある検索のしかたを何回かやっているうちに気づいたことである。Googleでは、検索するたびに、結果の検索件数が大きく変動することがある。それは、時として100倍(1/100)にも及ぶことがある。しかも、そういう変動が1日のうちに起きたりする。これでは、とうてい安心して日本語コーパスとして利用することはできない。この問題はYahooでも起こるが、こちらはせいぜい2倍程度であり、誤差と考えてもいいかもしれない。
これらについては、さらにデータを集め、近日中に発表する予定で研究を進めているところである。

  • 研究成果

    (1件)

すべて 2006

すべて 雑誌論文 (1件)

  • [雑誌論文] 検索エンジンGoogleの使い方とWWWコーパスによる日本語研究2006

    • 著者名/発表者名
      荻野綱男
    • 雑誌名

      城生佰太郎博士還暦記念論集 (3月(予定))

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi