• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

統計的機械学習を用いた歴史的資料の校訂の自動化に関する研究と自動校訂ツールの開発

Research Project

Project/Area Number 13J09935
Research Category

Grant-in-Aid for JSPS Fellows

Allocation TypeSingle-year Grants
Section国内
Research Field Japanese linguistics
Research InstitutionNara Institute of Science and Technology

Principal Investigator

岡 照晃  奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)

Project Period (FY) 2013-04-01 – 2015-03-31
Project Status Completed (Fiscal Year 2014)
Budget Amount *help
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 2014: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2013: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords校訂 / 歴史的資料 / 表記の標準化 / 形態素解析 / 歴史コーパス
Outline of Annual Research Achievements

平安時代や明治時代といった古い時代の文献資料(歴史的資料)のコーパス化作業は,人手の校訂作業がコスト高であるため,現代語に比べて遅れている.そこで本研究では,統計的機械学習の手法を用い,コンピュータによる校訂作業の自動化を目的とする.校訂とは,コーパスユーザの可読性・検索性を向上させるために表記を整える作業であり,本研究では特に表記の標準化を自動化の対象としている.
例えば,歴史的資料の中には,「及ひ(オヨビ)」のように濁音が期待されるのに濁点の付いていない文字(濁点無表記文字)や,歴史的仮名遣と一致しない仮名遣など,表記のバリエーションが多く含まれる.表記のバリエーションはコーパスを検索する際の障害となるため,コーパス整備時には表記を標準化する作業が必要となる.
本研究が扱った表記のバリエーションは以下の5種類である.
①濁点無表記 e.g., 及ひ(オヨビ)②仮名遣の不統一 e.g., 用い(モチイ),用ひ(モチイ),用ゐ(モチイ)③送り仮名の不統一 e.g., 限り,限ぎり,限(カギリ)④踊字による省略 e.g., 及ば/ゝ(オヨバ/バ),恐る々々(オソルオソル)
⑤ 漢字片仮名交じり文   e.g., 裁判官ハ刑法ノ宣告又ハ懲戒ノ処分ニ由ルノ外其ノ職ヲ免セラルヽコトナシ
本研究では,統計的機械学習を用いた日本語自動形態素解析と表記の標準化を同時に実施することで,高精度な表記の標準化の実現を目指す.本年度は,前年度に開発した辞書引き手法に加え, Augmented-Loss Trainingと呼ばれる手法を採用し,形態素解析と表記の標準化を同時に学習できるツールを開発した.Augmented-Loss Trainingを採用したことで,これまでは形態素解析の学習に使用できなかった,単語分割や品詞タグ付けの行われていない太陽コーパスのような表記整理済みコーパスを学習に使用可能となった.

Research Progress Status

26年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

26年度が最終年度であるため、記入しない。

Report

(2 results)
  • 2014 Annual Research Report
  • 2013 Annual Research Report
  • Research Products

    (3 results)

All 2014 2013

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (2 results)

  • [Journal Article] 統計的機械学習を用いた歴史的資料への濁点付与の自動化2013

    • Author(s)
      岡照晃, 小町守, 小木曽智信, 松本裕治
    • Journal Title

      情報処理学会論文誌

      Volume: Vol.54 No.4 Pages: 1641-1654

    • NAID

      110009579579

    • Related Report
      2013 Annual Research Report
    • Peer Reviewed
  • [Presentation] 形態素解析との同時最適化による歴史的資料の自動表記整理2014

    • Author(s)
      岡照晃, 松本裕治
    • Organizer
      情報処理学会研究報告 第216回自然言語処理研究会 第101回音声言語情報処理研究会 合同研究会
    • Place of Presentation
      東京工業大学
    • Year and Date
      2014-05-22
    • Related Report
      2014 Annual Research Report
  • [Presentation] 表記のバリエーションを考慮した近代日本語の形態素解析2013

    • Author(s)
      岡照晃, 小町守, 小木曽智信, 松本裕治
    • Organizer
      2013年度人工知能学会全国大会
    • Place of Presentation
      富山国際会議場(富山県 富山市)
    • Year and Date
      2013-06-05
    • Related Report
      2013 Annual Research Report

URL: 

Published: 2014-01-29   Modified: 2024-03-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi