研究実績の概要 |
平安時代や明治時代といった古い時代の文献資料(歴史的資料)のコーパス化作業は,人手の校訂作業がコスト高であるため,現代語に比べて遅れている.そこで本研究では,統計的機械学習の手法を用い,コンピュータによる校訂作業の自動化を目的とする.校訂とは,コーパスユーザの可読性・検索性を向上させるために表記を整える作業であり,本研究では特に表記の標準化を自動化の対象としている. 例えば,歴史的資料の中には,「及ひ(オヨビ)」のように濁音が期待されるのに濁点の付いていない文字(濁点無表記文字)や,歴史的仮名遣と一致しない仮名遣など,表記のバリエーションが多く含まれる.表記のバリエーションはコーパスを検索する際の障害となるため,コーパス整備時には表記を標準化する作業が必要となる. 本研究が扱った表記のバリエーションは以下の5種類である. ①濁点無表記 e.g., 及ひ(オヨビ)②仮名遣の不統一 e.g., 用い(モチイ),用ひ(モチイ),用ゐ(モチイ)③送り仮名の不統一 e.g., 限り,限ぎり,限(カギリ)④踊字による省略 e.g., 及ば/ゝ(オヨバ/バ),恐る々々(オソルオソル) ⑤ 漢字片仮名交じり文 e.g., 裁判官ハ刑法ノ宣告又ハ懲戒ノ処分ニ由ルノ外其ノ職ヲ免セラルヽコトナシ 本研究では,統計的機械学習を用いた日本語自動形態素解析と表記の標準化を同時に実施することで,高精度な表記の標準化の実現を目指す.本年度は,前年度に開発した辞書引き手法に加え, Augmented-Loss Trainingと呼ばれる手法を採用し,形態素解析と表記の標準化を同時に学習できるツールを開発した.Augmented-Loss Trainingを採用したことで,これまでは形態素解析の学習に使用できなかった,単語分割や品詞タグ付けの行われていない太陽コーパスのような表記整理済みコーパスを学習に使用可能となった.
|