研究課題/領域番号 |
19320081
|
研究機関 | 東京外国語大学 |
研究代表者 |
佐野 洋 東京外国語大学, 外国語学部, 教授 (30282776)
|
研究分担者 |
芝野 耕司 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
在間 進 東京外国語大学, 名誉教授 (30117709)
馬場 彰 東京外国語大学, 名誉教授 (90033406)
藤村 知子 東京外国語大学, 留学生日本語教育センター, 准教授 (20229040)
|
キーワード | e-Learning / 語学教育 / Web教材 / 日本語コーパス |
研究概要 |
本年度(2008年度)、昨年度に整理を行った日本語コーパスの分析を実施した。コーパス(日本で販売されている1400冊の教科書の内、指導書等の電子データのある教科書から収集)を使って、日本語教科書語彙分布調査を行い、語(形態素、単語、文末語形)について、頻度情報を求め、累積比率を計算した。高頻度語の言語的な特徴について調べたほか、統計的な累積ポイントである、2σ、3σや4σ点の語と頻度について調査した。 タグ付きコーパスを管理・検索するためのツールとして、小学館で開発された検索エンジン(JSC)と、NAIST(松本研究室)で開発されたChaki(茶器)の利用を試みた。Chakiに教科書コーパスを実装し、検索可能な状態とした。 なお、JSCは、UNI-Code対応にしているので、日本語だけでなく、他の言語でもタグ付きコーパスの形態であれば、JSCに実装することで検索が可能になる。例えば、英語であれば、BNCタガー(CROWS)を使って英文を形態素解析し、タグ付きのデータにすることで、検索対象のデータの作成が可能であることを確認した。 なお、未使用予算が発生した。研究分担者との作業分担打ち合わせでの齟齬もあって、お互いに発注したとの認識で進めていたが、未発注であったことが3月末に判明したためである。本研究に対する影響は少なく、次年度に購入することでカバーできる範囲のものである。
|