研究課題/領域番号 |
24520522
|
研究種目 |
基盤研究(C)
|
研究機関 | 大学共同利用機関法人人間文化研究機構国立国語研究所 |
研究代表者 |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
|
研究分担者 |
村上 謙 埼玉大学, 教育学部, 准教授 (20431728)
岡部 嘉幸 千葉大学, 人文社会科学研究科(系), 准教授 (80292738)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 近世語 / 形態素解析 / コーパス |
研究概要 |
近世の口語資料である洒落本のテキストに形態論情報の付与を行ったコーパスを作成し、また近世語の多様な表記に対応するために電子化辞書UniDicの活用表の整備を行った。これらのデータを用いて、形態素解析器MeCab用の形態素解析辞書の試作を行った。 形態論情報付きデータの作成にあたっては、近世文学を専門とする大学院生に作業を依頼し、近世上方語・江戸語を専門とする共同研究者の知見をもとに語意の解釈や文法的性質の判断を加えて、全文に対して詳細な情報付与を行った。このような作業は極めて高コストであるため、作成できるコーパスは小規模なものに限られる。そこで、当初は近代語辞書のデータも合わせて利用していたが、実験の結果、少量であっても近世語コーパスだけで機械学習を行った方が高い精度での解析が可能になることが確認されたため、近世語のみのコーパスによる辞書作成を行った。 この結果、現時点で単語境界の認定で約96%、品詞認定で約87%、語彙素の認定で約96%の精度で解析を行うことが可能になった。今後、コーパスを増やすとともに辞書見出し語を整備することにより、より高い精度で解析可能な辞書を作成する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
現時点で単語境界の認定で約96%、品詞認定で約87%、語彙素の認定で約96%の精度で解析を行うことが可能になった。 現時点ではコーパスが十分ではないため目標精度には達していないが、今後、学習用のコーパスを整備して量を増やし、辞書見出し語を整備していくことにより、当初目的としていた実用的な精度での解析を可能にする目処が立った。
|
今後の研究の推進方策 |
機械学習に用いるコーパスを増やすため近世語のコーパス作成を続行してデータを増やすとともに、そこに出現する未登録語を中心に、辞書見出し語を追加していく。 また、近世語特有の多様な表記に対応するために、現在利用しているMeCabのほかに、多様な表記に対応した新しい形態素解析器を利用することで、新しい資料に対するより頑健な解析を可能にする予定である。
|
次年度の研究費の使用計画 |
コーパスを整備するための作業者謝金として代表者の研究費の大部分(約70万円)を支出する。 そのほかは、作業・研究用の図書・消耗品購入と、成果発表のための学会参加旅費として使用する。
|