2011 Fiscal Year Annual Research Report
和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究
Project/Area Number |
22520458
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)
|
Keywords | 和歌 / 形態素解析 / 連接規則 / 古代語辞書 / 通時変化 / 品詞体系 / 八代集 / シソーラス |
Research Abstract |
二十一代集テキストのうち、国文学研究資料館の二十一代集データベース分の整備は前年度完了し、そのデータを用いて、仮の辞書を作成した。辞書は一部はMeCabのCRF++を用いて学習を行ったが、処理に時間が掛かるため、KyTea(京都テキスト解析ツールキット)を試しに利用したところ、八代集収録の和歌のすべてのフルアノテーションを学習データとして用いても、30秒程度で辞書のモデルを作ることができた。これにより、KyTeaの辞書モデル生成プログラムで全体の辞書を作りなおす作業に計画を変更した。平成23年度は、古典文学大系本その他をスキャンし、表記情報(漠字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。同時に、八代集の辞書をもとにKyTeaで処理しつつ、未知語と連節規則を学習させな添ら、じょじょに二十一代集全体の形態素解析が可能になるように作業を続けている。 実際には、処理に時間がかからなくなったため、補助作業者を依頼するまでもなく、研究者自身で辞書を編集しては、学習させ、実際に処理をさせてみて、修正を加えていく作業を問題なくこなすことができた。 当初、大量のメモリと計算速度が必要であったため、東京工業大学のスパコンTSUB柵三を用いて、行う予定であったが、この作業も所有のノートパソコンで実施することができた。修正作業をとおして単に辞書の追加や修正だけでなく、品詞体系の見直しや新たな連接規則を見直し、連接の捉え方についても考察を深めることができた。しかし、まだ理論化には至っていない。'この点が本研究における本質的かつ忍耐力が必要な部分であるが、補助作業者に考察をさせる訳にはいかないので、今後とも研究代表者自らが継続してやって行かなければならないだろう。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究に関連したプロジェクト、国立国語研究所の通時コーパスプロジェクトが開始され、そこでの研究成果が利用できていること、また、自然言語処理技術の発展により、新しい機械学習ツールが利用できることで、より計算資源の少ない、手間のかからない方法論が利用できたことによる。
|
Strategy for Future Research Activity |
特に問題点はない。今後は、本研究で開発した二十一代集の辞書を用いて、古代語研究に不可欠な二十一代集シソーラスを開発の研究がこの研究の続きとして計画できよう。
|
Research Products
(13 results)