2010 Fiscal Year Annual Research Report
和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究
Project/Area Number |
22520458
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)
|
Keywords | 和歌 / 形態素解析 / 連接規則 / 古代語辞書 / 通時的言語 / 品詞体系 / 八代集 / 語彙論的トポロジー |
Research Abstract |
22年度は辞書開発環境と作業手順の構築を行い、それを基盤として二十一代集処理に向けた辞書開発を行った。山元(2007)で開発した人代集用の解析済みデータとCRF (Conditional Random Field : http://mecab.sourceforge.net/)を用いて仮の解析辞書を作成した。CRFは語と語のつながりの程度(コスト)を統計的に推定するプログラム(連接パラメタの推定)で、辞書の主要な部分を生成してくれるものである。和歌は多種多様な表現形式で書き表されるため、そのさまざまな表記でも計算処理できるようにまず、表記形式の収集が必要である。国文学研究資料館の二十一代集データベースを用いた(既に利用許諾は得ている)ほか、古典文学大系本その他をスキャンし、表記情報(漢字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。この作業にはドキュメントスキャナを用いて、電子テキスト化し、コンピュータプログラムによって表記の異なりや揺れを一括して収集整理できる状態にしておく。しかしながら、手作業によるところも多い。国文学研究資料館のデータについては山元(研究業績参照)の八代集研究でも用いている。仮の辞書と二十一代集テキストが準備して、MeCabという形態素解析器で、形態素解析を実施した。MeCabは既成の品詞体系に依存しない設計になっており、現代語のみならず古代語であっても独自の品詞体系で形態素解析器が自作できるからである。特に和歌のような特殊なテキストに依存した品詞体系の取り扱いにも十分に対応できた。
|