• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

計量的分析のための15世紀朝鮮語形態素解析済みコーパス構築:仏教諺解を対象に

Research Project

Project/Area Number 20K00558
Research InstitutionKindai University

Principal Investigator

須賀井 義教  近畿大学, 総合社会学部, 准教授 (60454641)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywords朝鮮語史 / コーパス / 形態素解析 / 計量的分析 / TEIガイドライン
Outline of Annual Research Achievements

計画の最終年度である令和5年度には,MeCab(めかぶ)向けの15世紀朝鮮語形態素解析用辞書である「MkHanDic」に,引き続いて辞書項目の追加を行った.文献としては『月印釈譜』巻7の本文と注釈について分析を行い,漏れのある項目を解析用辞書に追加して,さらに解析用辞書の再構築を行った.最終的な辞書項目数は10023項目で,学習用データは3080文である.解析用辞書と学習用モデルについては,GitHubを通じてオープンソースソフトウェアとして公開を行った.研究期間の全体を通じて,学習データとして『釈譜詳節』巻6・9・13・19・20・21・23・24の本文と注釈,『月印釈譜』巻1・2・7の本文と巻7の注釈,『阿弥陀経諺解』の本文と注釈,『金剛経諺解』の本文,『三綱行実図』の本文と注釈を,最終的に含めることができた.
解析の精度について,やはり同音異義語の判定に問題があるものの,形態素の切り出しと品詞付与については高い精度を見せた.辞書の項目数もかなり増やすことができ,今後他の文献について解析を行う際にも,十分使用に耐えうると見受けられる.
また,形態素解析を行う前段階の作業として,TEI(Text Encoding Initiative)ガイドラインを用いた電子データの整備も行った.TEIガイドラインを用いることで,本文と注釈の区別などをテキストデータに盛り込むことができるため,データ抽出の際の便宜を向上させることできた.最終的に,『釈譜詳節』巻6・9・13・19・20・21・23・24,『月印釈譜』巻1・2・7・8・9・10,『阿弥陀経諺解』,『金剛経諺解』,『三綱行実図』のデータ整備が完了した.

  • Research Products

    (1 results)

All Other

All Remarks (1 results)

  • [Remarks] MkHanDic

    • URL

      https://github.com/okikirmui/mkhandic

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi