2018 Fiscal Year Research-status Report
自動形態素解析を利用した15世紀朝鮮語解析済みコーパスの構築
Project/Area Number |
17K02758
|
Research Institution | Kindai University |
Principal Investigator |
須賀井 義教 近畿大学, 総合社会学部, 准教授 (60454641)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 朝鮮語史 / 形態素解析 / コーパス |
Outline of Annual Research Achievements |
計画の2年目である平成30年度にも,初年度に引き続き(1)オープンソース形態素解析エンジンであるMeCab(めかぶ)を用いて形態素解析を行うための解析用辞書を構築し,実際に(2)15世紀朝鮮語の形態素解析を行った.初年度から作業を継続しているが,(1)で用いる解析用辞書は,登録されている項目が6578項目,辞書の学習に用いている学習用データは800文程度となった.解析とその結果の修正は,初年度の『釈譜詳節』巻六と巻十三に加えて,巻九,巻十九,巻廿三(本文のみ)が終了している. 初年度に進めていた電子データの校正作業については,『釈譜詳節』巻廿四まで終了した.『釈譜詳節』をはじめ,15世紀の朝鮮語文献については,研究者の間で利用している電子データがある.これは人手で入力したものだが,錯誤が見られる場合がある.これをそのまま入力データとして用いるには問題があるため,影印資料と突き合わせて,校正作業を行う必要がある.今年度は『釈譜詳節』以外の文献についても,研究補助員(アルバイト)による校正作業を進めた.具体的には『月印釈譜』,『般若心経諺解』などである. また,解析用辞書をオープンソースソフトウェアとして公開するためのレポジトリ選定については,既に研究代表者が現代語の解析用辞書を公開しているOSDNのレポジトリ(https://ja.osdn.net/projects/handic/)を利用し,新たなパッケージとして追加することにした.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初は平成30年度中に『釈譜詳節』の解析を終わらせることを予定していたが,研究代表者による解析結果の修正作業がやや遅れ,巻廿三,巻廿四が残ってしまった.解析用辞書の公開については,レポジトリの選定が終了したため,付属ドキュメントなどを整えて,準備ができ次第公開を行う.また,解析済みのデータをコーパスとして利用する実例については,継続して検討していく.
|
Strategy for Future Research Activity |
作業の補助を行うアルバイトの雇用に問題が生じ,作業時間をあまり確保できなかった,などといった理由のため,特に人件費・謝金の使用が計画通りに進まなかった.作業全体の進捗にも関わるため,次年度には作業補助員を積極的に雇用し,作業を進めていく予定である.また,成果発表のための学会参加も増やす予定である. 解析用辞書およびコーパスのデータ公開は,ドキュメントやデータの体裁が整ったものから,レポジトリに公開する.
|
Causes of Carryover |
作業の補助を行うアルバイトの雇用に問題が生じ,作業時間をあまり確保できなかった,などといった理由のため,特に人件費・謝金の使用が計画通りに進まなかった.作業全体の進捗にも関わるため,次年度には作業補助員を積極的に雇用し,作業を進めていく予定である.また,成果発表のための学会参加も増やす予定である.
|