• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Research-status Report

近世口語文を対象とした形態素解析辞書の開発

Research Project

Project/Area Number 24520522
Research Category

Grant-in-Aid for Scientific Research (C)

Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)

Co-Investigator(Kenkyū-buntansha) 村上 謙  埼玉大学, 教育学部, 准教授 (20431728)
岡部 嘉幸  千葉大学, 人文社会科学研究科(系), 准教授 (80292738)
Project Period (FY) 2012-04-01 – 2015-03-31
Keywords近世語 / 形態素解析 / コーパス
Research Abstract

近世の口語資料である洒落本のテキストに形態論情報の付与を行ったコーパスを作成し、また近世語の多様な表記に対応するために電子化辞書UniDicの活用表の整備を行った。これらのデータを用いて、形態素解析器MeCab用の形態素解析辞書の試作を行った。
形態論情報付きデータの作成にあたっては、近世文学を専門とする大学院生に作業を依頼し、近世上方語・江戸語を専門とする共同研究者の知見をもとに語意の解釈や文法的性質の判断を加えて、全文に対して詳細な情報付与を行った。このような作業は極めて高コストであるため、作成できるコーパスは小規模なものに限られる。そこで、当初は近代語辞書のデータも合わせて利用していたが、実験の結果、少量であっても近世語コーパスだけで機械学習を行った方が高い精度での解析が可能になることが確認されたため、近世語のみのコーパスによる辞書作成を行った。
この結果、現時点で単語境界の認定で約96%、品詞認定で約87%、語彙素の認定で約96%の精度で解析を行うことが可能になった。今後、コーパスを増やすとともに辞書見出し語を整備することにより、より高い精度で解析可能な辞書を作成する予定である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

現時点で単語境界の認定で約96%、品詞認定で約87%、語彙素の認定で約96%の精度で解析を行うことが可能になった。
現時点ではコーパスが十分ではないため目標精度には達していないが、今後、学習用のコーパスを整備して量を増やし、辞書見出し語を整備していくことにより、当初目的としていた実用的な精度での解析を可能にする目処が立った。

Strategy for Future Research Activity

機械学習に用いるコーパスを増やすため近世語のコーパス作成を続行してデータを増やすとともに、そこに出現する未登録語を中心に、辞書見出し語を追加していく。
また、近世語特有の多様な表記に対応するために、現在利用しているMeCabのほかに、多様な表記に対応した新しい形態素解析器を利用することで、新しい資料に対するより頑健な解析を可能にする予定である。

Expenditure Plans for the Next FY Research Funding

コーパスを整備するための作業者謝金として代表者の研究費の大部分(約70万円)を支出する。
そのほかは、作業・研究用の図書・消耗品購入と、成果発表のための学会参加旅費として使用する。

  • Research Products

    (6 results)

All 2012 Other

All Journal Article (2 results) Presentation (4 results) (of which Invited: 1 results)

  • [Journal Article] 市村 太郎, 河瀬 彰宏, 小木曽 智信2012

    • Author(s)
      近世口語テキストの構造化とその課題
    • Journal Title

      情報処理学会研究報告. 人文科学とコンピュータ研究会報告

      Volume: 2012-CH-96 Pages: 1-8

  • [Journal Article] 旧仮名遣いの口語文を対象とした形態素解析辞書2012

    • Author(s)
      小木曽智信
    • Journal Title

      じんもんこん2012論文集

      Volume: 7 Pages: 25-32

  • [Presentation] UniDic2: 拡張性と応用可能性にとんだ電子化辞書

    • Author(s)
      小木曽智信,伝康晴
    • Organizer
      言語処理学会第19回年次大会
    • Place of Presentation
      名古屋大学
  • [Presentation] 洒落本コーパスの構造化 ―仕様と事例の検討―

    • Author(s)
      市村 太郎,河瀬 彰宏,小木曽 智信
    • Organizer
      第3回 コーパス日本語学ワークショップ
    • Place of Presentation
      国立国語研究所
  • [Presentation] デハナイ、デナイ、ジャナイ―近世における否定表現一斑―

    • Author(s)
      岡部嘉幸,村上謙
    • Organizer
      NINJAL「通時コーパス」プロジェクト・OxfordVSARPJプロジェクト合同シンポジウム「通時コーパスと日本語史研究」
    • Place of Presentation
      国立国語研究所
  • [Presentation] 関西弁研究

    • Author(s)
      村上謙
    • Organizer
      埼玉大学国語教育学会2012年度例会
    • Place of Presentation
      埼玉大学
    • Invited

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi