本研究課題の目的は、近代語文語文の形態素解析を行うための電子化辞書を作成し、この辞書を活用した研究を行うことにより、通時的な日本語研究に形態素解析を利用した手法を導入し、その普及をはかることである。 今年度は、形態素解析辞書「近代文語UniDic」の精度向上のための取り組みとして次の研究を行った。 1 学習用の近代語コーパスを増補し、全体で約43万語とした。また、辞書データベースの近代文語用の見出し語を増補し、現代語用の見出し語と合わせて約25.4万語まで拡充した。 2 近代語の形態素解析の精度向上に現代語コーパスを利用する方法を提案し(言語処理学会第15回年次大会「現代語コーパスの利用による近代語形態素解析の精度向上」)、辞書開発に利用した。 また「近代文語UniDic」を利用した研究を行い、これを学会に広く紹介するために次の活動を行った。 3 解析用インターフェイスプログラム「茶まめ」とあわせてパッケージ化し「近代文語UniDic ver.1.0」としてWeb上で一般公開した。 4 日本語学会において形態素解析辞書のデモンストレーション発表を行った(2008年度春季大会「近代文語文を対象とした形態素解析辞書・近代文語UniDic」)。また、言語処理学会において研究発表を行った(第15回年次大会「語種を観点とした近代語と現代語の語彙の比較-形態素解析辞書「近代文語UniDic」「UniDic」を用いて-」)。 6 研究成果報告書『近代文語文を対象とした形態素解脈のための電子化辞書の作成とその活用』を作成し配布した。
|