研究課題/領域番号 |
11551009
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 展開研究 |
研究分野 |
国語学
|
研究機関 | 東京都立大学 |
研究代表者 |
荻野 綱男 東京都立大学, 人文学部, 教授 (00111443)
|
研究分担者 |
熊谷 康雄 国立国語研究所, 情報資料部門, 部門長 (30215016)
真田 信治 大阪大学, 大学院・文学研究科, 教授 (00099912)
宮島 達夫 京都橘女子大学, 文学部, 教授 (30099915)
中野 洋 国立国語研究所, 日本語教育センター, センター長 (40000426)
|
研究期間 (年度) |
1999 – 2001
|
研究課題ステータス |
完了 (2001年度)
|
配分額 *注記 |
7,800千円 (直接経費: 7,800千円)
2001年度: 2,200千円 (直接経費: 2,200千円)
2000年度: 2,700千円 (直接経費: 2,700千円)
1999年度: 2,900千円 (直接経費: 2,900千円)
|
キーワード | 計量的研究 / 論文データベース / CD-ROM / 日本語研究 |
研究概要 |
1 試作版CD-ROMをモニター数人に使ってもらい、使い方などについて感想を収集し、CD-ROMがどのように利用できるか、検討した。 2 スキャナで取り込んだ文献をOCRソフトを利用して文字認識してみた。画像情報よりは文字情報のほうが使いやすいのは当然であるが、問題は妥当な手間でそのような作業が可能かということである。 OCRソフトとして入手可能なものを5種類ほど用意し、それぞれに同一のスキャン結果を与えて文字認識させてみた。 試行の結果、使いやすく、認識精度が高いソフトの場合でも、数%程度の読み誤りがあることがわかった。結論として、現在の文字認識ソフトではまだ十分な実用レベルにまではいたっておらず、今回のような、論文をスキャンしたものから文字データを作成することは、不可能ではないにしても、コストや手間を考慮すると、実行は困難であることがわかった。 3 各分野ごとに研究文献を概観した場合、研究対象としてどれくらいの量を調査しているだろうか。CD-ROMに収録予定の論文を紙で分類し、調査した。分野としては、語彙、言語生活、文字、方言、音声、文法に分けた。その結果、全体として、研究対象の「量」は非常に変動が大きく、一定の傾向を把握することは困難であった。これは各研究ごとに目的が違っていたりすることが影響していよう。しかし、そう極端に大きかったり小さかったりすることもないので、研究者が考える「妥当な調査規模」というものがあるらしいということも言えよう。
|