研究概要 |
電子化された検定済み日本語コーパスのうち,今年度は,国語(65ファイル),社会(209ファイル),家庭科(11ファイル)の合計285ファイルの電子化された教科書テキストを,形態素解析した上で分析を実施した。とりわけ低学年用教科書は,ひらがなの使用頻度が高く,コンピュータを使った形態素解析では解析誤りが発生する。これらの解析誤り部分を特定し,手作業による修正を施すと同時に,誤り部分の言語(日本語)学的なアプローチによる分析・調査をおこなった。その結果,初等中等用教科書に顕著なひらがな表記に起因する解析誤りだけではなく,形態素解析の言語分析性能に因る箇所が見いだされた。これらをタイプ分類し,それらの現象を整理した。来年度は,このタイプ分類を参照して,他の教科の電子化コーパスを分析する予定である。 日本語の形態素解析のためのソフトウェアは,茶筅(奈良先端大学院大学・松本研究室で開発)を使用した。今年度,形態素解析されたコーパスの分析を支援するソフトウェアを開発した。日本語の語分析用のソフトウェアで,その使用過程で改良を加えた,これらのプログラムはフリーソフトウェアとして公開する予定である。
|