2017 Fiscal Year Research-status Report
自動形態素解析を利用した15世紀朝鮮語解析済みコーパスの構築
Project/Area Number |
17K02758
|
Research Institution | Kindai University |
Principal Investigator |
須賀井 義教 近畿大学, 総合社会学部, 准教授 (60454641)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 朝鮮語史 / 形態素解析 |
Outline of Annual Research Achievements |
計画の初年度である平成29年度は,①オープンソース形態素解析エンジンであるMeCab(めかぶ)を用いて形態素解析を行うための解析用辞書を構築し,実際に②15世紀朝鮮語の形態素解析を行った.この二つの作業は相互に関連しており,解析用辞書を構築する際,学習用データが必要であるが,そのデータには解析済みの正解データを用いる.そのため,辞書構築⇒解析結果の修正⇒修正した解析結果を学習データに追加して辞書構築,というように,循環的に作業を進めていくことになる. まず,①の作業においては,既に構築済みの辞書について項目を追加・修正し,随時学習用データも追加を行った.最新の解析用辞書は6100個程度の項目で構成されている.また,②に関して『釈譜詳節』巻六の本文データと注釈部分のデータについて,解析とその修正作業が終了している.最新の辞書は,この修正済みデータを学習用データとして構築したものである.解析と修正の作業は,現在『釈譜詳節』巻十三について進めているところである.解析の際に誤った項目については,解析用辞書に追加をしている.今のところ,解析用辞書の学習用データは300文ていどである. 上記の作業と並行して,解析対象となる15世紀の朝鮮語文献について,電子データの校正作業を行った.この作業については主に作業補助員(アルバイト)が進め,研究代表者がさらにチェックする,という方式を採っている.『釈譜詳節』については残りの巻のうち,巻九,十九,廿三まで終了しており,巻廿四が途中の段階である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
当初予定では初年度に『釈譜詳節』の解析を全て行う予定であったが,研究代表者および研究補助員(アルバイト)による入力データの校正作業がやや遅れ,解析自体は巻六と巻十三までしか終えることができなかった.また,解析用辞書公開のためのレポジトリ選定も未決となっているため,今後早急に決定し,データを公開する予定である.
|
Strategy for Future Research Activity |
今後の予定としては,やはり①形態素解析用辞書の構築,および②15世紀朝鮮語の形態素解析を行う.入力データの調整が済み次第,『釈譜詳節』の残りのデータ(巻九,十九,廿三,廿四)について解析を行い,修正の上で学習用データに追加して,さらに解析用辞書を構築する. また,オープンソースのソフトウェアとして,インターネットで解析用辞書を公開する予定である. 平成30年度には,解析済みのデータをコーパスとしてどう利用することができるか,情報抽出の方法などと合わせて学会で発表する予定である.
|
Causes of Carryover |
作業の補助を行うアルバイトの雇用に問題が生じ,作業時間をあまり確保できなかったこと,および先方の都合により専門的知識の提供を1回のみ受けたこと,などといった理由のため,特に人件費・謝金の使用が計画通りに進まなかった.作業全体の進捗にも関わるため,次年度には作業補助員を積極的に雇用し,作業を進めていく予定である.
|