Research Abstract |
本研究は大量の日本語コーパスを使って,日本語の文章の読み易さ・読み難さ(リーダビリティー)を数値で表す尺度(スケール)を構築することを目的とする。初年度である平成19年度は,日本語の様々な読み物を電子ファイル化し,様々な分析に使えるコーパスを作ることを目的とし,近い将来,国立国語研究所が日本語の均衡コーパスを完成した後には,そのコーパスも利用する予定である。平成19年度は10数名の研究補助者を雇い入れ,(1)小学1年から高校3年までの国語教科書51冊,(2)日本語能力試験1&2級読解問題(2002年から2006年の5年分),(3)ベストセラーのケータイ小説2作品,(4)出版部数の多い雑誌(文芸春秋,ESSE,MORE,WエTHを各3か月分)をページごとにスキャンし,コンピュータ画面で使えるよう電子ファイルにした。(1)から(4)までのテキストのほか,すでにCD-Romとなっている「新潮文庫の100冊」「毎日新聞データ集2006年度版」を使い,それぞれのテキストにおける(1)1文の平均文字数,(2)1文の平均単語数,(3)文章の文字種の割合(漢字,平仮名,カタカナ,ローマ字),(4)文章の語種の割合(漢語,和語,外来語,混種語)を形態素解析ツールChaSenと電子辞書Katarigusaで分析し,さらに(5)文の係り受けの数と関係を係り受け解析ツールCaboChaによる解析を終了した。これらの分析結果を元に,URLとして,学年配当漢字分類ツール,漢字-平仮名変換ツール,係り受け修正ツールを作成できた。さらに日本語の読み易さを学年で示す公式として,現段階で以下の公式が濃く地区された。この式は将来改良の余地があるが,平成19年度の成果が結実したものである。以上の結果を5件の学会・研究会等で口頭発表し,公式をと特許として出願した。 学年=-0.07*総平仮名数/総文字数+0.004*総IU数/総文数+0.047*総漢語数/内容語の総数+7.341
|