2013 Fiscal Year Research-status Report
Project/Area Number |
24520522
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
村上 謙 埼玉大学, 教育学部, 准教授 (20431728)
岡部 嘉幸 千葉大学, 人文社会科学研究科(系), 准教授 (80292738)
市村 太郎 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (10701352)
|
Keywords | 近世語 / 形態素解析 / 日本語史 / コーパス |
Research Abstract |
本年度は、UniDicに近世口語特有語の見出し語追加を継続するとともに、近世口語の学習用のコーパス構築として洒落本のコーパス修正作業を行い「跖婦人伝」「遊子方言」「聖遊廓」「甲駅新話」「興斗月」「陽台遺編・𡝂閣秘言」「風流裸人形」について短単位の形態論情報の修正作業を終えた。また、滑稽本「浮世床」の一部と人情本「春告鳥」の一部についても修正作業を行った。これらのコーパスと、国語研究所「日本語歴史コーパス」の一部として構築中である虎明本狂言集の修正済みコーパスを用いて、近世語の形態素解析辞書を試作し、解析精度の検証実験を行った。 その結果、狂言用と洒落本用とでコーパスを分割し、別途形態素解析辞書を作成した方が解析精度の向上が見込まれることが確認されたため、狂言用のUniDicと、洒落本用のUniDicを別途作成した。この辞書により、現時点で学習用コーパス量が多い狂言用では品詞認定96%、語彙素認定95.7%という高い解析精度を達成した。コーパス量が少ない洒落本については、品詞認定86.7%、語彙素認定85.7%に留まった。ただし、洒落本については、会話文と地の文とで辞書を切り替えて解析を行うことで精度向上が見込めることが確認された。今後コーパス量を増やすと同時に、解析方法を工夫することで、ほぼ当初予定した通りの形態素解析辞書が作成できる目途が立った。 このほかに、近世語のコーパスを用いた記述的研究を行い、研究論文を発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
狂言用の辞書については、当初予定していた解析精度を達成し、約96%という高い精度により形態素解析が可能になった。この辞書は「日本語歴史コーパス」の一環として作成中の虎明本狂言のコーパス構築に利用され成果を上げている。 洒落本用の辞書については、コーパスが少ないこと、資料が多様でありもともと解析が難しいことから、現時点では必ずしも十分な精度が得られていないが、コーパスと見出し語を増補し解析の方法を工夫することによって精度を向上させる目処が立っている。
|
Strategy for Future Research Activity |
狂言については十分な精度を達成したため、今後は洒落本について、精度を向上させる。まず、地の文と会話文とで解析用辞書を切り替える方法を導入し、文語の地の文と、口語の会話文とが適切に解析できるようにする。また、学習用のコーパスと辞書の見出し語を増補することにより、解析精度の向上を図る。 あわせて、構築されたコーパスを用いた文法・語彙記述の研究を行う。そのために、作成済みの洒落本のコーパスにアノテーションを行い、地の文と会話文の区別と、会話文については発話者の情報を付与し、形態論情報と合わせて高度な検索・集計処理が行えるようにする。
|
Expenditure Plans for the Next FY Research Funding |
前年度まで作業を担当し継続を予定していた作業担当者2名のうち1名が就職したため、年度途中で新たな作業者を探して委託することとなり、予定した作業量に達しなかった。 一時的に新規プロジェクト研究員を雇用して不足した分の作業を補う。
|