研究概要 |
電子化された検定済み日本籍コーパスのうち,昨年度は,国語(65ファイル),社会(209ファイル),家庭科(11ファイル)の合計285ファイルの電子テキストを形態素解析した上で分析を実施した。今年度,これら形態素解析されたコーパスの分析を支援するソフトウェアを開発した。日本語の語分析用のソフトウェアで,その使用過程で改良を加えた。これらのプログラムはフリーソフトウェアとして公開した。ソフトウェアによって効率的に日本語分析が可能となり,大学院生の日本語学に関係する修士研究でも利用され,本ソフトウェアによる従来にない大規模なコーパス収集力が評価された。また,開発したソフトウェアをCD-ROMに添付するかたちで日本語分析の方法論を紹介した書籍を出版した。 教科書コーパス中の漢字の使用分析を行った。単語という単位を文脈として捉え,その文脈の中での漢字の使用比率を分析した。漢字の利用の様相は,単語の種類に束縛された形で使われていることが分かった。従来の単漢字における漢字の性質や文章中での使用頻度では,漢字の分布の様相が捉えられなかったが,今年度の分析によって,漢字の使用の様相が明らかになってきた。 来年度は,上述の分析の方法論に改良を加え,文節単位での漢字の使用の様相を分析し,さらに文節単位での語形の使用の様相を分析することを予定している。また,今年度,英語教科書を入手した。英語文章での語彙分析も平行して実施し,日本語/英語での教科書コーパスを対照に言語対照分析を実施する予定である。
|