• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061002
Research InstitutionChiba University

Principal Investigator

傳 康晴  Chiba University, 文学部, 教授 (70291458)

Co-Investigator(Kenkyū-buntansha) 峯松 信明  東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信  千葉大学, 国立国語研究所・研究開発部門, 研究員 (20337489)
小磯 花絵  千葉大学, 国立国語研究所・研究開発部門, 研究員 (30312200)
Keywords電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント
Research Abstract

本計画班の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1) 本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2) 日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。昨年度までに、(1) 形態素解析システムChaSenで利用できる辞書(10万語以上)を公開し、(2) 形態素解析システムMeCabでさらに精度向上できることを確認し、(3) 音変化・アクセント変化に関する調査・モデル化を行い、(4) 中・長単位自動構成システムのプロトタイプを作成した。
本年度は以下のことを行った。
(1) 短単位辞書の拡充 : 登録情報の整理を行うとともに、新規登録語を随時追加した(語彙素約15万項目・書字形約21.5万項目)。
(2) 形態素解析システム用辞書の解析精度向上 : とくにMeCab版において、解析精度を向上した(品詞認定 : 98.9%、語彙素認定 : 98.6%)。さらに、解析テキストのジャンルごとに適応した辞書を作成する手法を提案し、高い効果を得た。
(3) 音変化・アクセント変化処理の改善 : 連濁・促音化の事例を収集し、統計学習の手法を試行した。アクセント変化処理では、規則処理を考慮することで統計学習を高精度化した。
(4) 中・長単位構成システムの開発 : 統計学習による長単位自動構成システムを改良し、長単位の解析精度を向上した(境界認定98.6%、品詞認定97.7%)。また、中単位構成システムで用いる学習データを増強した。

  • Research Products

    (23 results)

All 2009 2008 Other

All Journal Article (20 results) (of which Peer Reviewed: 4 results) Book (2 results) Remarks (1 results)

  • [Journal Article] 形態論情報の自動付与とその問題点2009

    • Author(s)
      小木曽智信
    • Journal Title

      国文学解釈と鑑賞 74(1)

      Pages: 35-43

  • [Journal Article] 話し言葉における引用節・挿入節の自動認定および係り受け解析への応用2009

    • Author(s)
      浜辺良二・内元清貴・河原達也・井佐原均
    • Journal Title

      自然言語処理 16(1)

      Pages: 3-23

    • Peer Reviewed
  • [Journal Article] CRFを用いたアクセント変形予測モデルの規則処理に基づく改良2009

    • Author(s)
      印南圭祐・渡辺美知子・峯松信明・広瀬啓吉
    • Journal Title

      言語処理学会第15回年次大会発表論文集

      Pages: 574-577

  • [Journal Article] コーパスに基づく多様なジャンルの文体比較-短単位情報に着目して-2009

    • Author(s)
      小磯花絵・小木曽智信・小椋秀樹・宮内佐夜香
    • Journal Title

      言語処理学会第15回年次大会発表論文集

      Pages: 594-597

  • [Journal Article] 語種を観点とした近代語と現代語の語彙の比較-形態素解析辞書「近代文語UniDic」「UniDiclを用いて-2009

    • Author(s)
      近藤明日子・小木曽智信
    • Journal Title

      言語処理学会第15回年次大会発表論文集

      Pages: 741-744

  • [Journal Article] 現代語コーパスの利用による近代語形態素解析の精度向上2009

    • Author(s)
      小木曽智信・伝康晴・渡部涼子・近藤明日子
    • Journal Title

      言語処理学会第15回年次大会発表論文集

      Pages: 801-804

  • [Journal Article] ジャンル別UniDic作成の試み2009

    • Author(s)
      小木曽智信・伝康晴・渡部涼子
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 17-22

  • [Journal Article] 『現代日本語書き言葉均衡コーパス』における形態論情報付与作業の進捗状況2009

    • Author(s)
      小椋秀樹・小木曽智信・小磯花絵・冨士池優美・宮内佐夜香・渡部涼子・竹内ゆかり・小川志乃・小西光・原裕・中村壮範
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 57-64

  • [Journal Article] 形態論情報データベースの構成2009

    • Author(s)
      小木曽智信・小椋秀樹・小磯花絵・冨士池優美・宮内佐夜香・渡部涼子・竹内ゆかり・小川志乃・小西光・原裕・中村壮範
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 65-70

  • [Journal Article] 短単位を対象とした連濁の処理について2009

    • Author(s)
      山田篤
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 93-98

  • [Journal Article] 規則処理のアクセント属性を導入したCRFによるアクセント結合処理2009

    • Author(s)
      印南圭祐・峯松信明
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 175-181

  • [Journal Article] 規則処理を参考にしたCRFによるアクセント結合モデル2009

    • Author(s)
      印南圭祐・渡辺美知子・峯松信明・広瀬啓吉
    • Journal Title

      日本音響学会春季講演論文集

      Pages: 473-476

  • [Journal Article] コンピュータの辞書2009

    • Author(s)
      小木曽智信
    • Journal Title

      新「ことば」シリーズ22「辞書を知る」

      Pages: 114-117

  • [Journal Article] 近代文語文を対象とした形態素解析辞書・近代文語UniDic2008

    • Author(s)
      小木曽智信・小椋秀樹・近藤明日子
    • Journal Title

      日本語学会2008年度春季大会予稿集

      Pages: 211-218

    • Peer Reviewed
  • [Journal Article] 話し言葉の整形作業における削除箇所の自動同定2008

    • Author(s)
      尾嶋憲治・河原達也・秋田祐哉・内元清貴
    • Journal Title

      情報処理学会研究報告 2008-NL-185

      Pages: 85-91

  • [Journal Article] A proper approach to Japanese morphological analysis : Dictionary, model, and evaluation2008

    • Author(s)
      Den. Y., Nakamura, J., Ogiso, T., and Ogura. H
    • Journal Title

      Proc. of LREC2008

      Pages: 1019-1024

    • Peer Reviewed
  • [Journal Article] Word-level dependency-structure annotation to Corpus of Spontaneous Japanese and its application2008

    • Author(s)
      Uchimoto, K. and Den. Y
    • Journal Title

      Proc. of LREC2008

      Pages: 3118-3122

    • Peer Reviewed
  • [Journal Article] 『現代日本語書き言葉均衡コーパス』にもとづくジャンル間の文体差に関わる要因の分析2008

    • Author(s)
      小磯花絵・小木曽智信・小椋秀樹・冨士池優美・宮内佐夜香
    • Journal Title

      社会言語科学会第22回研究大会発表論文集

      Pages: 192-195

  • [Journal Article] 平成19年度進捗状況報告 : 電子化辞書班(多様な目的に適した形態素解析システム用電子化辞書の開発)2008

    • Author(s)
      伝康晴・峯松信明・小木曽智信・小磯花絵・山田篤・内元清貴
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度全体会議予稿集

      Pages: 15-18

  • [Journal Article] 短単位情報に基づくジャンル間の文体に関する分析2008

    • Author(s)
      小磯花絵・小木曽智信・小椋秀樹
    • Journal Title

      特定領域研究「日本語コーパス」平成20年度全体会議予稿集

      Pages: 99-106

  • [Book] 『現代日本語書き言葉均衡コーパス』形態論情報規程集2009

    • Author(s)
      小椋秀樹・小磯花絵・冨士池優美・原裕
    • Total Pages
      250
    • Publisher
      特定領域研究「日本語コーパス」平成20年度研究成果報告書
  • [Book] 『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装2009

    • Author(s)
      小木曽智信・中村壮範
    • Total Pages
      141
    • Publisher
      特定領域研究「日本語コーパス」特定領域研究「日本語コーパス」平成20年度研究成果報告書
  • [Remarks] 形態素解析辞書UniDic

    • URL

      http://unidic.download.org/

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi