研究概要 |
本研究の目的は近代語文語文の形態素解析を行うための電子化辞書を作成することである。形態素解析とは、コンピュータを使って、文章を自動で単語に区切り、品詞や読みなどの情報を付与する(コンピュータに品詞分解をさせる)技術である。現代語を対象とした形態素解析は既に実用化されているが、これまでは文語文を解析することができなかった。研究活動は、これを実現するためのデータ作成が中心になる。 この解析用辞書は、解析辞書UniDicをべースとすることで、見出し・語形・書字形に階層化し、斉一な解析単位による言語研究に適したものとする。また、明治期に発行された辞書の見出し語情報などの近代語研究に役立つ情報を付与することで、幅広い研究に応用可能なものとすることを目指している。 本年度は、この解析辞書を完成させるために次の活動を行った。 1 近代文語の語彙を、階層化されたUniDicの形式で登録するためのデータベース・システムを整備し、文語形・旧字形を中心に約3.7万語の見出し語を追加した。 2 辞書データベースと、別途用意した学習用のコーパスをもとにして解析システムを構築し、実際に形態素解析を行うことのできる電子化辞書を作成した。 3 解析用辞書の精度評価等を行い、学会で報告するとともに、解析用インターフェイスプログラムなどとあわせてパッケージにまとめ、「近代文語UniDic ver.0.7」として、Web上で一般公開を開始した。 4 このシステムによる解析結果を用いてコーパス言語学の手法による近代語の記述的研究を行うための予備調査を行った。 本年度において,実用可能な近代文語用解析辞書を完成させるという当面の目的を達成したため,今後は,解析辞書の精度向上と,辞書の応用面での研究に注力する。
|