2012 Fiscal Year Annual Research Report
和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究
Project/Area Number |
22520458
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 和歌 / 辞書 / 連接 / 日本語 / 平安時代 / 解析システム / 古語 |
Research Abstract |
代表者は2007年に和歌用の形態素解析ツールを開発した。その解析対象は八代集(およそ905年から1205年)に限定されていた。本研究の大きな目的の一つは、八代集から二十一代集にまで解析可能対象を拡大することであり、その辞書を開発することである。 しかしながら、従来八代集解析で用いられていた最長一致法では、すべての出力を確認しなければならないので膨大な作業を必要とする。そこで、本研究では八代集の解析済みデータを用いて、連接規則をコンピュータ処理によって獲得する。その獲得した規則を二十一代集の解析処理に応用し、二十一代集の品詞タグづけを行う。その作業を通して、二十一代集から獲得された連接規則から和歌用語の語彙的結束性、あるいは連接規則の理論化を試みる。八代集の辞書を作成する時には、MeCab付属の連接規則学習システムを利用して、CRF(conditional random field)で辞書を生成しつつ、未知語を追加し、誤解析を修正しつつ、辞書を育てていった。しかし、大量のメモリ空間を必要とし、素性の数が増えると学習・生成時間がかかり、スパコンをもってしても、検証、追加、学習、生成、検証のサイクルを繰り返し、出力を確認しながら、辞書を育てていくには現実的ではなかった。 2011年頃より、KyTea(京都大学開発)が利用できるようになり、それに付属する簡易な学習データ、スパースネスなメモリ空間を必要としない点推定による連接規則学習システムにより、ノートブック程度のマシンであっても数十秒で学習モデルの生成ができた。このモデルによる辞書とKyTeaを用いて、二十一代集の単位切りを行ったところ、ほぼ96%の高い割合で品詞タグつけをすることができた。未知語の入力および未知語周辺の連接規則の学習は未知語が出現するたびに行わなければならなかったが、二十一代集の単位分割を行う辞書は完成した。
|
Current Status of Research Progress |
Reason
25年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
25年度が最終年度であるため、記入しない。
|
Research Products
(8 results)