計量的分析のための15世紀朝鮮語形態素解析済みコーパス構築:仏教諺解を対象に
Project/Area Number |
20K00558
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Kindai University |
Principal Investigator |
須賀井 義教 近畿大学, 総合社会学部, 准教授 (60454641)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,730,000 (Direct Cost: ¥2,100,000、Indirect Cost: ¥630,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
|
Keywords | 朝鮮語史 / コーパス / 形態素解析 / 計量的分析 / TEIガイドライン / TEI / 言語学 / コーパス言語学 / 朝鮮語学 |
Outline of Research at the Start |
本研究は15 世紀の朝鮮語文献,特に仏教諺解について形態素解析を行い,コーパスとして構築することを目的とする.形態素解析においては,形態素解析エンジン「MeCab」(めかぶ)を用いる.本研究では15 世紀朝鮮語文献のうち,仏教諺解の『月印釈譜』(1459年刊)および『法華経諺解』(1463 年刊)をコーパス化の対象とする.この過程で作成されるコーパスデータや解析用辞書については,広く今後の朝鮮語史研究に資するべく,インターネットを通じて公開する.本研究を通じて公開されるデータや検索ツールなどによって,朝鮮語情報処理の質的向上ならびに朝鮮語史研究の新たな展開に寄与することを目指す.
|
Outline of Annual Research Achievements |
計画の3年目である令和4年度にも,引き続きMeCab(めかぶ)向けの15世紀朝鮮語形態素解析用辞書である「MkHanDic」に,辞書項目の追加を行った.現在の辞書項目数は9730項目で,学習用データは3070文である.解析の精度について,やはり同音異義語の判定に問題があり,解決方法について検討を行っている.ただし,これまでの作業を通じて,辞書の項目数を着実に増やしており,さらに登録項目を増やしていくことで,全体的な精度を向上させることが可能である.引き続き,辞書項目と学習用データを増やしていく. また,形態素解析を行う前段階の作業として,TEI(Text Encoding Initiative)ガイドラインを用いた電子データの整備を並行して行っているが,今年度は『般若心経諺解』『救急簡易方諺解』の電子データ構築に着手した.これらの文献も15世紀に刊行されたものであるが,本研究で対象とする『月印釈譜』とはテキストの構造,構成がやや異なる.様々なタイプの文献について,TEIガイドラインによる電子データ化を行うことで,知見がより深まり,『月印釈譜』に対する電子データ化もさらに精緻さを加えることが可能になると考える.また,形態素解析の結果も盛り込んだ電子データ化の方法についても,今後検討する予定である. 今後はこれらのデータを元に,本研究の研究対象である『月印釈譜』の他の巻についても電子データ化を行い,作業が終了したデータから形態素解析を行って,未登録の項目を辞書項目として追加する作業を行う.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
対面授業の再開に伴って,新たな授業運用の方式を導入したため,授業負担が増大し,本課題の遂行に割くことのできる時間がやや不足した.また,データの入力やチェックに従事するアルバイトの雇用に問題があり,形態素解析と解析用辞書構築に関する作業がやや遅れている.
|
Strategy for Future Research Activity |
既に電子データ構築が終了している文献から形態素解析を順次行い,解析用辞書を充実させる.また,解析済みのデータを活用するための方策を検討する.
|
Report
(3 results)
Research Products
(4 results)
-
[Journal Article] 中期朝鮮語の計量的分析の試み2022
Author(s)
須賀井 義教
-
Journal Title
Journal of the Society for Korean Linguistics in Japan
Volume: 9
Issue: 0
Pages: 175-207
DOI
ISSN
1347-2690, 2436-5661
Year and Date
2022-02-22
Related Report
Peer Reviewed
-
-
-