研究概要 |
平安時代や明治時代といった古い時代の文献資料(歴史的資料)のコーパス化作業は, 人手の校訂作業がコスト高であるため, 現代語に比べて遅れている. そこで本研究では, 統計的機械学習の手法を用い, コンピュータによる校訂作業の自動化を目的とする. 校訂とは, コーパスユーザの可読性・検索性を向上させるために表記を整える作業であり, 本研究では特に次の2つの項目を自動化の対象としている. ○表記の標準化 : 歴史的資料の中には, 「及ひ(オヨビ)」のように濁音が期待されるのに濁点の付いていない文字や, 歴史的仮名遣と一致しない仮名遣など, 表記のバリエーションが多く含まれる. 表記のバリエーションはコーパスを検索する際の障害となるため, コーパス整備時には表記を標準化する作業が必要となる. ○文境界判定 : 歴史的資料の記述中では句読点を含まず文境界が明確になっていないことが多い. 文境界が明確になっていれば, テキストを文単位に解析できるといった利点がある. そのため, 文境界判定が重要な作業となる. 本研究では, 統計的機械学習を用いた日本語自動形態素解析の枠組みにおいて, 表記の標準化と文境界判定を同時に実施することで, 高精度な自動校訂の実現を目指す. 本年度は, まず比較的リソースの多く確保できる近代文語論説文を対象に, 形態素解析と表記の標準化の同時解析に取り組んだ, 具体的には, 辞書登録や辞書引きの工夫により, 表記のバリエーションを含んだ単語も単語ラティスへと追加できるようにした. これにより, 形態素解析の結果から標準化された表記を獲得することができる. 年度前半には, この辞書引き手法の開発に取り組んだ. また年度後半にかけて, 形態素解析との同時解析による表記の自動標準化ツールの開発に取り組んだ. このツールを用いることで, 従来の単純な文字べースの自動標準化に比べて高い精度で標準化を実施することが可能になった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度予定していた研究はおおむね計画通りに進展した. 形態素解析との同時解析による表記の標準化ツールの開発が順調に進み, 従来法よりも高い精度で表記の標準化が実施できることが分かった. また研究の途中成果として得られた, 表記のバリエーションを含んだ単語の辞書引き手法に関して, 外部発表を行うこともできた.
|