研究課題
二十一代集テキストのうち、国文学研究資料館の二十一代集データベース分の整備は前年度完了し、そのデータを用いて、仮の辞書を作成した。辞書は一部はMeCabのCRF++を用いて学習を行ったが、処理に時間が掛かるため、KyTea(京都テキスト解析ツールキット)を試しに利用したところ、八代集収録の和歌のすべてのフルアノテーションを学習データとして用いても、30秒程度で辞書のモデルを作ることができた。これにより、KyTeaの辞書モデル生成プログラムで全体の辞書を作りなおす作業に計画を変更した。平成23年度は、古典文学大系本その他をスキャンし、表記情報(漠字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。同時に、八代集の辞書をもとにKyTeaで処理しつつ、未知語と連節規則を学習させな添ら、じょじょに二十一代集全体の形態素解析が可能になるように作業を続けている。実際には、処理に時間がかからなくなったため、補助作業者を依頼するまでもなく、研究者自身で辞書を編集しては、学習させ、実際に処理をさせてみて、修正を加えていく作業を問題なくこなすことができた。当初、大量のメモリと計算速度が必要であったため、東京工業大学のスパコンTSUB柵三を用いて、行う予定であったが、この作業も所有のノートパソコンで実施することができた。修正作業をとおして単に辞書の追加や修正だけでなく、品詞体系の見直しや新たな連接規則を見直し、連接の捉え方についても考察を深めることができた。しかし、まだ理論化には至っていない。'この点が本研究における本質的かつ忍耐力が必要な部分であるが、補助作業者に考察をさせる訳にはいかないので、今後とも研究代表者自らが継続してやって行かなければならないだろう。
1: 当初の計画以上に進展している
本研究に関連したプロジェクト、国立国語研究所の通時コーパスプロジェクトが開始され、そこでの研究成果が利用できていること、また、自然言語処理技術の発展により、新しい機械学習ツールが利用できることで、より計算資源の少ない、手間のかからない方法論が利用できたことによる。
特に問題点はない。今後は、本研究で開発した二十一代集の辞書を用いて、古代語研究に不可欠な二十一代集シソーラスを開発の研究がこの研究の続きとして計画できよう。
すべて 2011 その他
すべて 雑誌論文 (7件) (うち査読あり 6件) 学会発表 (5件) 備考 (1件)
語彙研究
巻: 9 ページ: 86-94
ISSN1349-6409
Osaka symposium on digital humanities 2011
巻: 1 ページ: 51-52
巻: 1 ページ: 42-42
Asialex 2011, Lexicography : Theoretical and Practical Perspectives
ページ: 496-505
ISBN978-4-9901771-1-9
ページ: 576-585
じんもんこんシンポジウム2011,人文科学とコンピュータシンポジウム論文集,情報処理学会
巻: 8 ページ: 141-146
ISSN1344-0640
特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集
ページ: 535-544
http://warbler.ryu.titech.ac.jp/~yamagen/waka/kaken2010.html