• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2018 Fiscal Year Research-status Report

自動形態素解析を利用した15世紀朝鮮語解析済みコーパスの構築

Research Project

Project/Area Number 17K02758
Research InstitutionKindai University

Principal Investigator

須賀井 義教  近畿大学, 総合社会学部, 准教授 (60454641)

Project Period (FY) 2017-04-01 – 2020-03-31
Keywords朝鮮語史 / 形態素解析 / コーパス
Outline of Annual Research Achievements

計画の2年目である平成30年度にも,初年度に引き続き(1)オープンソース形態素解析エンジンであるMeCab(めかぶ)を用いて形態素解析を行うための解析用辞書を構築し,実際に(2)15世紀朝鮮語の形態素解析を行った.初年度から作業を継続しているが,(1)で用いる解析用辞書は,登録されている項目が6578項目,辞書の学習に用いている学習用データは800文程度となった.解析とその結果の修正は,初年度の『釈譜詳節』巻六と巻十三に加えて,巻九,巻十九,巻廿三(本文のみ)が終了している.
初年度に進めていた電子データの校正作業については,『釈譜詳節』巻廿四まで終了した.『釈譜詳節』をはじめ,15世紀の朝鮮語文献については,研究者の間で利用している電子データがある.これは人手で入力したものだが,錯誤が見られる場合がある.これをそのまま入力データとして用いるには問題があるため,影印資料と突き合わせて,校正作業を行う必要がある.今年度は『釈譜詳節』以外の文献についても,研究補助員(アルバイト)による校正作業を進めた.具体的には『月印釈譜』,『般若心経諺解』などである.
また,解析用辞書をオープンソースソフトウェアとして公開するためのレポジトリ選定については,既に研究代表者が現代語の解析用辞書を公開しているOSDNのレポジトリ(https://ja.osdn.net/projects/handic/)を利用し,新たなパッケージとして追加することにした.

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

当初は平成30年度中に『釈譜詳節』の解析を終わらせることを予定していたが,研究代表者による解析結果の修正作業がやや遅れ,巻廿三,巻廿四が残ってしまった.解析用辞書の公開については,レポジトリの選定が終了したため,付属ドキュメントなどを整えて,準備ができ次第公開を行う.また,解析済みのデータをコーパスとして利用する実例については,継続して検討していく.

Strategy for Future Research Activity

作業の補助を行うアルバイトの雇用に問題が生じ,作業時間をあまり確保できなかった,などといった理由のため,特に人件費・謝金の使用が計画通りに進まなかった.作業全体の進捗にも関わるため,次年度には作業補助員を積極的に雇用し,作業を進めていく予定である.また,成果発表のための学会参加も増やす予定である.
解析用辞書およびコーパスのデータ公開は,ドキュメントやデータの体裁が整ったものから,レポジトリに公開する.

Causes of Carryover

作業の補助を行うアルバイトの雇用に問題が生じ,作業時間をあまり確保できなかった,などといった理由のため,特に人件費・謝金の使用が計画通りに進まなかった.作業全体の進捗にも関わるため,次年度には作業補助員を積極的に雇用し,作業を進めていく予定である.また,成果発表のための学会参加も増やす予定である.

URL: 

Published: 2019-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi