• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

近代文語文を対象とした形態素解析のための電子化辞書の作成とその活用

Research Project

Project/Area Number 19720110
Research InstitutionThe National Institute for Japanese Language

Principal Investigator

小木曽 智信  The National Institute for Japanese Language, 研究開発部門, 研究員 (20337489)

Keywords言語学 / 国語学 / 日本語学 / 日本語史 / 形態素解析 / 近代語 / コーパス / 自然言語処理
Research Abstract

本研究の目的は近代語文語文の形態素解析を行うための電子化辞書を作成することである。形態素解析とは、コンピュータを使って、文章を自動で単語に区切り、品詞や読みなどの情報を付与する(コンピュータに品詞分解をさせる)技術である。現代語を対象とした形態素解析は既に実用化されているが、これまでは文語文を解析することができなかった。研究活動は、これを実現するためのデータ作成が中心になる。
この解析用辞書は、解析辞書UniDicをべースとすることで、見出し・語形・書字形に階層化し、斉一な解析単位による言語研究に適したものとする。また、明治期に発行された辞書の見出し語情報などの近代語研究に役立つ情報を付与することで、幅広い研究に応用可能なものとすることを目指している。
本年度は、この解析辞書を完成させるために次の活動を行った。
1 近代文語の語彙を、階層化されたUniDicの形式で登録するためのデータベース・システムを整備し、文語形・旧字形を中心に約3.7万語の見出し語を追加した。
2 辞書データベースと、別途用意した学習用のコーパスをもとにして解析システムを構築し、実際に形態素解析を行うことのできる電子化辞書を作成した。
3 解析用辞書の精度評価等を行い、学会で報告するとともに、解析用インターフェイスプログラムなどとあわせてパッケージにまとめ、「近代文語UniDic ver.0.7」として、Web上で一般公開を開始した。
4 このシステムによる解析結果を用いてコーパス言語学の手法による近代語の記述的研究を行うための予備調査を行った。
本年度において,実用可能な近代文語用解析辞書を完成させるという当面の目的を達成したため,今後は,解析辞書の精度向上と,辞書の応用面での研究に注力する。

  • Research Products

    (2 results)

All 2008 Other

All Presentation (1 results) Remarks (1 results)

  • [Presentation] 「近代文語文を対象とした形態素解析辞書の開発」2008

    • Author(s)
      小木曽 智信・小椋 秀樹・近藤 明日子
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学駒場キャンパス
    • Year and Date
      2008-03-18
  • [Remarks] 近代文語UniDic公開ページ

    • URL

      http://www.kokken.go.jp/lrc/index.php?UniDic

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi