• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2013 Fiscal Year Research-status Report

近世口語文を対象とした形態素解析辞書の開発

Research Project

Project/Area Number 24520522
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)

Co-Investigator(Kenkyū-buntansha) 村上 謙  埼玉大学, 教育学部, 准教授 (20431728)
岡部 嘉幸  千葉大学, 人文社会科学研究科(系), 准教授 (80292738)
市村 太郎  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト非常勤研究員 (10701352)
Keywords近世語 / 形態素解析 / 日本語史 / コーパス
Research Abstract

本年度は、UniDicに近世口語特有語の見出し語追加を継続するとともに、近世口語の学習用のコーパス構築として洒落本のコーパス修正作業を行い「跖婦人伝」「遊子方言」「聖遊廓」「甲駅新話」「興斗月」「陽台遺編・𡝂閣秘言」「風流裸人形」について短単位の形態論情報の修正作業を終えた。また、滑稽本「浮世床」の一部と人情本「春告鳥」の一部についても修正作業を行った。これらのコーパスと、国語研究所「日本語歴史コーパス」の一部として構築中である虎明本狂言集の修正済みコーパスを用いて、近世語の形態素解析辞書を試作し、解析精度の検証実験を行った。
その結果、狂言用と洒落本用とでコーパスを分割し、別途形態素解析辞書を作成した方が解析精度の向上が見込まれることが確認されたため、狂言用のUniDicと、洒落本用のUniDicを別途作成した。この辞書により、現時点で学習用コーパス量が多い狂言用では品詞認定96%、語彙素認定95.7%という高い解析精度を達成した。コーパス量が少ない洒落本については、品詞認定86.7%、語彙素認定85.7%に留まった。ただし、洒落本については、会話文と地の文とで辞書を切り替えて解析を行うことで精度向上が見込めることが確認された。今後コーパス量を増やすと同時に、解析方法を工夫することで、ほぼ当初予定した通りの形態素解析辞書が作成できる目途が立った。
このほかに、近世語のコーパスを用いた記述的研究を行い、研究論文を発表した。

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

狂言用の辞書については、当初予定していた解析精度を達成し、約96%という高い精度により形態素解析が可能になった。この辞書は「日本語歴史コーパス」の一環として作成中の虎明本狂言のコーパス構築に利用され成果を上げている。
洒落本用の辞書については、コーパスが少ないこと、資料が多様でありもともと解析が難しいことから、現時点では必ずしも十分な精度が得られていないが、コーパスと見出し語を増補し解析の方法を工夫することによって精度を向上させる目処が立っている。

Strategy for Future Research Activity

狂言については十分な精度を達成したため、今後は洒落本について、精度を向上させる。まず、地の文と会話文とで解析用辞書を切り替える方法を導入し、文語の地の文と、口語の会話文とが適切に解析できるようにする。また、学習用のコーパスと辞書の見出し語を増補することにより、解析精度の向上を図る。
あわせて、構築されたコーパスを用いた文法・語彙記述の研究を行う。そのために、作成済みの洒落本のコーパスにアノテーションを行い、地の文と会話文の区別と、会話文については発話者の情報を付与し、形態論情報と合わせて高度な検索・集計処理が行えるようにする。

Expenditure Plans for the Next FY Research Funding

前年度まで作業を担当し継続を予定していた作業担当者2名のうち1名が就職したため、年度途中で新たな作業者を探して委託することとなり、予定した作業量に達しなかった。
一時的に新規プロジェクト研究員を雇用して不足した分の作業を補う。

  • Research Products

    (12 results)

All 2014 2013 Other

All Journal Article (5 results) (of which Peer Reviewed: 3 results) Presentation (6 results) (of which Invited: 1 results) Remarks (1 results)

  • [Journal Article] 論文タイトル:副詞「ほんに」をめぐって―「ほん」とその周辺―2014

    • Author(s)
      市村太郎
    • Journal Title

      日本語の研究

      Volume: 10-2 Pages: 1-16

    • Peer Reviewed
  • [Journal Article] 明治大正期関西弁資料としての曾我廼家五郎喜劇脚本群2013

    • Author(s)
      村上謙
    • Journal Title

      埼玉大学国語教育論叢

      Volume: 16 Pages: 1-15

    • Peer Reviewed
  • [Journal Article] ジャからヤへ ―明治大正期関西弁指定表現体系における「標準語化」の影響―2013

    • Author(s)
      村上謙
    • Journal Title

      近代語研究

      Volume: 17 Pages: 97-114

  • [Journal Article] 歴史的日本語資料を対象とした形態素解析2013

    • Author(s)
      小木曽 智信, 小町 守, 松本 裕治
    • Journal Title

      自然言語処理

      Volume: 20(5) Pages: 727-748

    • Peer Reviewed
  • [Journal Article] モダリティに関する覚え書き2013

    • Author(s)
      岡部嘉幸
    • Journal Title

      語文論叢

      Volume: 28 Pages: 96-75

  • [Presentation] TEI P5に基づく近世口語資料の構造化とその問題点

    • Author(s)
      河瀬彰宏,市村太郎,小木曽智信
    • Organizer
      じんもんこん(PNC/ECAI合同開催)
    • Place of Presentation
      京都大学
  • [Presentation] The Current Situation and Role of TEI P5 as an XML Standard for the Corpus of Historical Japanese

    • Author(s)
      Akihiro KAWASE and Toshinobu OGISO
    • Organizer
      国際シンポジウム デジタル時代の人文学と仏教学の役割について
    • Place of Presentation
      東京大学
    • Invited
  • [Presentation] 近世口語資料の形態素解析の試み

    • Author(s)
      小木曽智信,市村太郎,鴻野知暁
    • Organizer
      第4回コーパス日本語学ワークショップ
    • Place of Presentation
      国立国語研究所
  • [Presentation] 見出し語の時代情報を付与した電子化辞書の構築

    • Author(s)
      鴻野知暁, 小木曽智信
    • Organizer
      言語処理学会第20回年次大会
    • Place of Presentation
      北海道大学
  • [Presentation] 『虎明本狂言集』における会話文の計量分析

    • Author(s)
      河瀬彰宏, 市村太郎, 小木曽智信
    • Organizer
      言語処理学会第20回年次大会
    • Place of Presentation
      北海道大学
  • [Presentation] Design and Compilation of the Corpus of Historical Japanese

    • Author(s)
      Toshinobu Ogiso
    • Organizer
      国際ワークショップ・TEIと日本語歴史コーパス
    • Place of Presentation
      国立国語研究所
  • [Remarks] 歴史的資料を対象としたUniDic

    • URL

      http://www2.ninjal.ac.jp/lrc/index.php?UniDic

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi