• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061002
Research InstitutionChiba University

Principal Investigator

傳 康晴  Chiba University, 文学部, 教授 (70291458)

Co-Investigator(Kenkyū-buntansha) 峯松 信明  東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信  国立国語研究所, 言語資源研究系, 准教授 (20337489)
小磯 花絵  国立国語研究所, 理論・構造研究系, 准教授 (30312200)
Keywords電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント
Research Abstract

本研究の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙.文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。
本年度は以下のことを行った。
(1)短単位辞書の拡充:登録情報の整理を行うとともに、新規登録語を随時追加した(語彙素約18.3万項目・書字形約28.6万項目)。
(2)形態素解析システム用辞書の公開:最新版(MeCab版)の解析精度は品詞認定:98.9%、語彙素認定:98.6%。
(3)UniDic ver.2の準備:短単位辞書をXMLデータとして公開するために、形態素解析システム用辞書との整合性を調整した。
(4)汎用後処理モジュールの開発:従来独立のモジュールとして開発してきた、特定品詞再解析モジュールや音変化処理モジュールを汎用後処理モジュールに統合した。
(5)その他:アクセント変化処理での中単位情報の利用について検討した。また、長単位構成システムの改良を行った。
本研究で提供する形態素解析辞書はその規模・記載内容において最高水準のものであり、また解析システムは短単位解析から長単位構成・音変化処理・アクセント処理までカバーしており他に類を見ないものである。

  • Research Products

    (17 results)

All 2010 2009 Other

All Journal Article (15 results) (of which Peer Reviewed: 5 results) Book (1 results) Remarks (1 results)

  • [Journal Article] 中古和文を対象とした形態素解析辞書の開発2010

    • Author(s)
      小木曽智信・小椋秀樹・田中牧郎・近藤明日子・伝康晴
    • Journal Title

      情報処理学会研究報告 2010-CH-85

      Pages: 49-64

  • [Journal Article] 機械翻訳に適した短単位に基づく中国語単語分割について2010

    • Author(s)
      王軼謳・内元清貴・風間淳一・Kruengkrai Canasai・鳥澤健太郎
    • Journal Title

      言語処理学会第16回年次大会発表論文集

  • [Journal Article] 形態素解析辞書のベンチマークテスト―IPAdic・NAIST-jdic・UniDicのジャンル別精度比較2010

    • Author(s)
      小木曽智信・小椋秀樹・小磯花絵・宮内佐夜香・渡部涼子・伝康晴
    • Journal Title

      言語処理学会第16回年次大会発表論文集

  • [Journal Article] 形態素解析辞書UniDicにおける同語異語判別について2010

    • Author(s)
      小椋秀樹・原裕・小木曽智信・小磯花絵・宮内佐夜香
    • Journal Title

      言語処理学会第16回年次大会発表論文集

  • [Journal Article] 修辞ユニットを用いた書き言葉の分析―「書き言葉・話し言葉」と(脱)文脈化の関係―2010

    • Author(s)
      佐野大樹・小磯花絵
    • Journal Title

      社会言語科学会第23回研究大会発表論文集

      Pages: 182-185

    • Peer Reviewed
  • [Journal Article] UniDic汎用後処理ツールの設計と実装2010

    • Author(s)
      山田篤・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成21年度公開ワークショップ予稿集

      Pages: 23-28

  • [Journal Article] 形態素解析辞書UniDicにおける語彙素見出しの立項方針2010

    • Author(s)
      小椋秀樹・原裕・小木曽智信・小磯花絵・宮内佐夜香
    • Journal Title

      特定領域研究「日本語コーパス」平成21年度公開ワークショップ予稿集

      Pages: 85-92

  • [Journal Article] 『現代日本語書き言葉均衡コーパス』における長単位解析の進捗状況2010

    • Author(s)
      冨士池優美・小椋秀樹・小西光・小木曽智信・小磯花絵・内元清貴・小澤俊介
    • Journal Title

      特定領域研究「日本語コーパス」平成21年度公開ワークショップ予稿集

      Pages: 93-100

  • [Journal Article] MeCab版形態素解析辞書4種のジャンル別解析精度比較―UniDicとIPAdic, NAIST-jdic, JUMANdic―2010

    • Author(s)
      小木曽智信・小椋秀樹・小磯花絵・宮内佐夜香・渡部涼子・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成21年度公開ワークショップ予稿集

      Pages: 175-182

  • [Journal Article] 長単位情報に基づくジャンル間の文体に関する分析2010

    • Author(s)
      小磯花絵・小木曽智信・小椋秀樹・宮内佐夜香
    • Journal Title

      特定領域研究「日本語コーパス」平成21年度公開ワークショップ予稿集

      Pages: 183-190

  • [Journal Article] Design, compilation, and preliminary analyses of balanced corpus of contemporary written Japanese2010

    • Author(s)
      K.Maekawa, M.Yamazaki, T.Maruyama, M.Yamaguchi, H.Ogura, W.Kashino, T.Ogiso, H.Koiso, Y.Den
    • Journal Title

      Proceedings of the 7th International Conference on Language Resources and Evaluation (掲載確定)

    • Peer Reviewed
  • [Journal Article] 多様な目的に適した形態素解析システム用電子化辞書2009

    • Author(s)
      伝康晴
    • Journal Title

      人工知能学会誌 24

      Pages: 640-646

  • [Journal Article] Development of an on-line word accent dictionary of Japanese2009

    • Author(s)
      H.Hirano, M.Suzuki, K.Innami, N.Minematsu, K.Hirose
    • Journal Title

      Proceedings of JSAA-ICJLE 2009

    • Peer Reviewed
  • [Journal Article] An error-driven word-character hybrid model for joint Chinese word segmentation and POS tag2009

    • Author(s)
      C.Kruengkrai, K.Uchimoto, J.Kazama, Y.Wang, K.Torisawa, H.Isahara
    • Journal Title

      Proceedings of ACL-IJCNLP 2009

      Pages: 513-521

    • Peer Reviewed
  • [Journal Article] Improving dependency parsing with subtrees from auto-parsed data2009

    • Author(s)
      W.Chen, J.Kazama, K.Uchimoto, K.Torisawa
    • Journal Title

      Proceedings of EMNLP 2009

      Pages: 570-579

    • Peer Reviewed
  • [Book] 『現代日本語書き言葉均衡コーパス』形態論情報規程集(特定領域研究「日本語コーパス」特定領域研究「日本語コーパス」平成21年度研究成果報告書, 第3版)2010

    • Author(s)
      小椋秀樹・小磯花絵・冨士池優美・宮内佐夜香・原裕
    • Total Pages
      295
  • [Remarks]

    • URL

      http://unidic.download.org/

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi