研究課題/領域番号 |
21520492
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
|
研究分担者 |
田中 牧郎 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (90217076)
小椋 秀樹 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
|
キーワード | 日本語史 / 形態素解析 / コーパス / 中古和文 |
研究概要 |
初年度である21年度は、まず中古仮名文学作品を対象とした形態素解析辞書を作成するために、主要な中古仮名文学作品を学習用コーパスとして整備するとともに、辞書データベースに未登録語を追加する作業を行った。具体的には『伊勢物語』『大和物語』『土佐日記』『更級日記』『紫式部日記』と『源氏物語』の一部のテキスト、計約11万語分を学習用コーパスとして整備し、ここに現れた未登録語を辞書データベースに登録、これらのデータを用いて形態素解析器MeCab用の辞書を作成した。最新版の解析辞書(中古和文UniDic ver.0.4)の精度は、語彙素認定のレベル(単語の境界認定,品詞認定,辞書の見出し認定のすべてが正解)で約95.5%となった。当初、漢字仮名交じりに校訂済みの中古仮名文学作品(物語・日記文学等)について精度95%以上で解析することを目標としていたが、(未知語を含まない環境下ながら)すでにこれを達成することができた。今後、さらに精度を向上させ、解析できるテキストの範囲を拡大するため、解析辞書の整備を続ける予定である。 日本の古典文学のテキストを、研究に利用可能な、実用的な精度で自動解析できる形態素解析辞書の開発・公開は初めてのことであり、今後、この解析辞書を応用した古典研究の進展が期待される。特にコーパス言語学の手法を用いた語彙・文法分野での応用が期待されるが、この点については次年度以降、応用研究として取り組んでいく予定である。 なお、作成した形態素解析辞書については学会で成果を報告し研究者に公開して評価を行っているところであるが、今後、ホームページを通じて一般公開し、広く利用を呼びかける予定である。
|