研究概要 |
【概要】 電子化された検定済み日本語コーパスのうち,今年度は,国語(65ファイル),社会(209ファイル),家庭科(11ファイル)の合計285ファイルの電子化された教科書テキストを,形態素解析した上で分析を実施した。とりわけ低学年用教科書は,ひらがなの使用頻度が高く,コンピュータを使った形態素解析では解析誤りが発生する。これらの解析誤り部分を特定し,手作業による修正を施すと同時に,誤り部分の言語(日本語)学的なアプローチによる分析・調査をおこなった。その結果,初等中等用教科書に顕著なひらがな表記に起因する解析誤りだけではなく,形態素解析の言語分析性能に因る箇所が見いだされた。これらをタイプ分類し,それらの現象を整理した。来年度は,このタイプ分類を参照して,他の教科の電子化コーパスを分析する予定である。 日本語の形態素解析のためのソフトウェアは,茶筅(奈良先端大学院大学・松本研究室で開発)を使用した。今年度,形態素解析されたコーパスの分析を支援するソフトウェアを開発した。日本語の語分析用のソフトウェアで,その使用過程で改良を加えた.これらのプログラムはフリーソフトウェアとして公開した。 電子化された検定済み日本語コーパスのうち,昨年度は,国語(65ファイル),社会(209ファイル),家庭科(11ファイル)の合計285ファイルの電子テキストを形態素解析した上で分析を実施した。今年度,これら形態素解析されたコーパスの分析を支援するソフトウェアを開発した。日本語の語分析用のソフトウェアで,その使用過程で改良を加えた。これらのプログラムはフリーソフトウェアとして公開した。ソフトウェアによって効率的に日本語分析が可能となり,大学院生の日本語学に関係する修士研究でも利用され,本ソフトウェアによる従来にない大規模なコーパス収集力が評価された。また,開発したソフトウェアをCD-ROMに添付するかたちで日本語分析の方法論を紹介した書籍を出版した。教科書コーパス中の漢字の使用分析を行った。単語という単位を文脈として捉え,その文脈の中での漢字の使用比率を分析した。漢字の利用の様相は,単語の種類に束縛された形で使われていることが分かった。従来の単漢字における漢字の性質や文章中での使用頻度では,漢字の分布の様相が捉えられなかったが,この分析によって,漢字の使用の様相が明らかになってきた。
|