研究課題/領域番号 |
19720110
|
研究種目 |
若手研究(B)
|
配分区分 | 補助金 |
研究分野 |
日本語学
|
研究機関 | 独立行政法人国立国語研究所 |
研究代表者 |
小木曽 智信 独立行政法人国立国語研究所, 研究開発部門, 研究員 (20337489)
|
研究期間 (年度) |
2007 – 2008
|
研究課題ステータス |
完了 (2008年度)
|
配分額 *注記 |
3,230千円 (直接経費: 2,900千円、間接経費: 330千円)
2008年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2007年度: 1,800千円 (直接経費: 1,800千円)
|
キーワード | 近代語 / 形態素解析 / 電子化辞書 / コーパス / 言語学 / 国語学 / 日本語学 / 日本語史 / 自然言語処理 |
研究概要 |
本研究では近代文語文の形態素解析を行うための電子化辞書「近代文語UniDic」を作成し、日本語研究者に利用しやすい形にまとめ上げてインターネット上で一般公開を行った。この辞書は「現代日本語書き言葉均衡コーパス」の開発に用いられているUniDic をベースにしており、斉一な単位・階層化された見出し語などの設計を受け継いだ、言語研究に適した辞書となっている。また、近代文語UniDic は現代語用のUniDic と見出し語の互換性があるため、近代語と現代語の比較研究に利用することが可能となった。 この形態素解析辞書の応用として、この辞書で『太陽コーパス』を解析した結果を用いて語彙頻度表を作成し、コーパス言語学的手法による近代語語彙の記述的研究を行った。また、これを『現代日本語書き言葉均衡コーパス』(モニター版)を現代語版のUniDic で解析した結果と比較することにより、近代語と現代語の語彙の比較研究を行った。 これらの研究成果については研究成果報告書『近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用』(全233 ページ)にまとめ、公開した。
|