研究課題
22年度は辞書開発環境と作業手順の構築を行い、それを基盤として二十一代集処理に向けた辞書開発を行った。山元(2007)で開発した人代集用の解析済みデータとCRF (Conditional Random Field : http://mecab.sourceforge.net/)を用いて仮の解析辞書を作成した。CRFは語と語のつながりの程度(コスト)を統計的に推定するプログラム(連接パラメタの推定)で、辞書の主要な部分を生成してくれるものである。和歌は多種多様な表現形式で書き表されるため、そのさまざまな表記でも計算処理できるようにまず、表記形式の収集が必要である。国文学研究資料館の二十一代集データベースを用いた(既に利用許諾は得ている)ほか、古典文学大系本その他をスキャンし、表記情報(漢字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。この作業にはドキュメントスキャナを用いて、電子テキスト化し、コンピュータプログラムによって表記の異なりや揺れを一括して収集整理できる状態にしておく。しかしながら、手作業によるところも多い。国文学研究資料館のデータについては山元(研究業績参照)の八代集研究でも用いている。仮の辞書と二十一代集テキストが準備して、MeCabという形態素解析器で、形態素解析を実施した。MeCabは既成の品詞体系に依存しない設計になっており、現代語のみならず古代語であっても独自の品詞体系で形態素解析器が自作できるからである。特に和歌のような特殊なテキストに依存した品詞体系の取り扱いにも十分に対応できた。
すべて 2011 2010
すべて 雑誌論文 (3件) (うち査読あり 1件) 学会発表 (1件)
特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集
ページ: 534-544
じんもんこん2010, 人文科学とコンピュータシンポジウム, 情報処理学会
巻: 15 ページ: 247-254
第16回公開シンポジウム「人文科学とデータベース」論文集、人文系データベース協議会
巻: 16 ページ: 37-44