2014 Fiscal Year Annual Research Report
統計的機械学習を用いた歴史的資料の校訂の自動化に関する研究と自動校訂ツールの開発
Project/Area Number |
13J09935
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
岡 照晃 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2013-04-01 – 2015-03-31
|
Keywords | 校訂 / 歴史的資料 / 表記の標準化 / 形態素解析 / 歴史コーパス |
Outline of Annual Research Achievements |
平安時代や明治時代といった古い時代の文献資料(歴史的資料)のコーパス化作業は,人手の校訂作業がコスト高であるため,現代語に比べて遅れている.そこで本研究では,統計的機械学習の手法を用い,コンピュータによる校訂作業の自動化を目的とする.校訂とは,コーパスユーザの可読性・検索性を向上させるために表記を整える作業であり,本研究では特に表記の標準化を自動化の対象としている. 例えば,歴史的資料の中には,「及ひ(オヨビ)」のように濁音が期待されるのに濁点の付いていない文字(濁点無表記文字)や,歴史的仮名遣と一致しない仮名遣など,表記のバリエーションが多く含まれる.表記のバリエーションはコーパスを検索する際の障害となるため,コーパス整備時には表記を標準化する作業が必要となる. 本研究が扱った表記のバリエーションは以下の5種類である. ①濁点無表記 e.g., 及ひ(オヨビ)②仮名遣の不統一 e.g., 用い(モチイ),用ひ(モチイ),用ゐ(モチイ)③送り仮名の不統一 e.g., 限り,限ぎり,限(カギリ)④踊字による省略 e.g., 及ば/ゝ(オヨバ/バ),恐る々々(オソルオソル) ⑤ 漢字片仮名交じり文 e.g., 裁判官ハ刑法ノ宣告又ハ懲戒ノ処分ニ由ルノ外其ノ職ヲ免セラルヽコトナシ 本研究では,統計的機械学習を用いた日本語自動形態素解析と表記の標準化を同時に実施することで,高精度な表記の標準化の実現を目指す.本年度は,前年度に開発した辞書引き手法に加え, Augmented-Loss Trainingと呼ばれる手法を採用し,形態素解析と表記の標準化を同時に学習できるツールを開発した.Augmented-Loss Trainingを採用したことで,これまでは形態素解析の学習に使用できなかった,単語分割や品詞タグ付けの行われていない太陽コーパスのような表記整理済みコーパスを学習に使用可能となった.
|
Research Progress Status |
26年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
26年度が最終年度であるため、記入しない。
|
Research Products
(1 results)