研究分担者 |
玉岡 賀津雄 広島大学, 留学生センター, 教授 (70227263)
山本 和英 長岡技術科学大学, 工学部, 准教授 (40359708)
加納 満 長岡技術科学大学, 工学部, 准教授 (80251859)
李 在鎬 情報通信研究機構, その他部局, 研究員 (20450695)
原 信一郎 長岡技術科学大学, 工学部, 准教授 (20242464)
|
研究概要 |
目的 : 本研究は大量の日本語コーパスを使って,日本語の文章の読み易さ・読み難さ(リーダビリティー)を数値で表す尺度(スケール)を構築することを目的とする。 実施状況 : 日本語の様々な読み物を電子ファイル化し,様々な分析に使えるコーパスを作った。そのために10数名の研究補助者を雇い入れ,(1) 小学1年から高校3年までの国語教科書51冊,(2) 日本語能力試験1&2級読解問題(2002年から2006年の5年分), (3) ベストセラーのケータイ小説2作品, (4) 出版部数の多い雑誌(文芸春秋, ESSE, MORE,WITHを各3か月分)をページごとにスキャンし, OCRを使い, コンピュータで使えるよう電子ファイルにした。(1)から(4)までのテキストのほか, すでにCD-Romとなっている「新潮文庫の100冊」「毎日新聞データ集2006年度版」を使い, 形態素解析を行なった。当初,解析にはChaSenを使っていたが, より精度を高めるため, MeCabとIPA辞書に切り替え, ツールの整備を行なった。国語教科書をデータベースとして構築された学年判定式(小学1年から中学3年まで)を用いて, 様々な読み物を測定したところ, 最近人気のあるケータイ小説は小学6年から中学1年レベル, 「星の王子さま」は翻訳者によって, 小学2年から5年レベルにあることがわかった。 本研究の意義 : 文章の難易を示す尺度が出来たことにより, 様々な文書のレベルを測定できる。例えば, 製品マニュアル, 薬の能書き, 災害マニュアルなどはわかりやすい文章で書かれるべきであるが, そのような文書を作成するための指標ができた。
|