2003 年度実績報告書

全電子化検定済み教科書データの解析と大規模日本語コーパスの構築

研究課題

研究課題/領域番号	14380174
研究機関	東京外国語大学
研究代表者	佐野洋東京外国語大学, 外国語学部, 教授 (30282776)
研究分担者	藤村知子東京外国語大学, 留学生日本語教育センター, 助教授 (20229040) 峰岸真琴東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (20190712) 芝野耕司東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
キーワード	日本語情報処理 / 大規模基本語コーパス / 計量言語学 / コーパス言語学
研究概要	電子化された検定済み日本籍コーパスのうち,昨年度は,国語(65ファイル),社会(209ファイル),家庭科(11ファイル)の合計285ファイルの電子テキストを形態素解析した上で分析を実施した。今年度,これら形態素解析されたコーパスの分析を支援するソフトウェアを開発した。日本語の語分析用のソフトウェアで,その使用過程で改良を加えた。これらのプログラムはフリーソフトウェアとして公開した。ソフトウェアによって効率的に日本語分析が可能となり,大学院生の日本語学に関係する修士研究でも利用され,本ソフトウェアによる従来にない大規模なコーパス収集力が評価された。また,開発したソフトウェアをCD-ROMに添付するかたちで日本語分析の方法論を紹介した書籍を出版した。教科書コーパス中の漢字の使用分析を行った。単語という単位を文脈として捉え,その文脈の中での漢字の使用比率を分析した。漢字の利用の様相は,単語の種類に束縛された形で使われていることが分かった。従来の単漢字における漢字の性質や文章中での使用頻度では,漢字の分布の様相が捉えられなかったが,今年度の分析によって,漢字の使用の様相が明らかになってきた。来年度は,上述の分析の方法論に改良を加え,文節単位での漢字の使用の様相を分析し,さらに文節単位での語形の使用の様相を分析することを予定している。また,今年度,英語教科書を入手した。英語文章での語彙分析も平行して実施し,日本語/英語での教科書コーパスを対照に言語対照分析を実施する予定である。

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] 佐野洋: "日本学習素材作成のための日本語処理ソフトウェア"CIEC(コンピュータ&エデュケーション)会誌. Vol15. (2003)
[文献書誌] 佐野洋: "日本語調査用ツール CLTOOL"東京外国語大学,語学研究書論集. 第8号. (2003)
[文献書誌] 佐野洋: "ESP適合の教材コンテンツを実現する語学教育支援システム"CIEC(コンピュータ利用教育協議会),外国語教育研究部会. CD-ROM書籍出版. (2003)
[文献書誌] 佐野洋: "WindowsPCによる日本語研究法"共立出版. 148 (2003)