• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061002
Research InstitutionChiba University

Principal Investigator

傳 康晴  千葉大学, 文学部, 教授 (70291458)

Co-Investigator(Kenkyū-buntansha) 峯松 信明  東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信  国立国語研究所, 言語資源研究系, 准教授 (20337489)
小磯 花絵  国立国語研究所, 理論・構造研究系, 准教授 (30312200)
Keywords電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント変化
Research Abstract

本研究の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。本年度は以下のことを行った。
(1)短単位辞書の拡充:新規登録語を随時追加した(語彙素約21万項目・書字形約33万項目)。
(2)形態素解析システム用辞書の公開:最新版(MeCab版)の解析精度は品詞認定:98.9%、語彙素認定:98.5%。
(3)UniDic 2の開発:XML形式の短単位辞書と形態素解析システム辞書への変換ツールを開発した。
(4)中・長単位解析ツールの開発:短単位解析結果から長単位・中単位を自動構成するツールを開発。
解析精度は、長単位で境界認定:98.9%、品詞認定:98.6%、中単位で境界認定:99.2%。
(5)音変化・アクセント変化処理システムの開発:汎用後処理ツールを用いて、音変化・アクセント変化処理を行うシステムを開発した。
本研究の成果である形態素解析辞書はその規模・記載内容において最高水準のものであり、また解析システムは短単位解析から中・長単位構成、音変化処理、アクセント変化処理までカバーしており他に類を見ないものである。

  • Research Products

    (23 results)

All 2011 2010 Other

All Journal Article (20 results) (of which Peer Reviewed: 1 results) Book (2 results) Remarks (1 results)

  • [Journal Article] 「中古和文UniDic」における言語単位の設計2011

    • Author(s)
      小椋秀樹・須永哲矢・小木曽智信・近藤明日子・田中牧郎
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 312-315

  • [Journal Article] Web版コーパス検索アプリケーション「中納言」の公開2011

    • Author(s)
      中村壮範・小木曽智信
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 344-347

  • [Journal Article] 『現代日本語書き言葉均衡コーパス』における形態論情報付きXMLフォーマット2011

    • Author(s)
      小木曽智信・間淵洋子・前川喜久雄
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 352-355

  • [Journal Article] 『現代日本語書き言葉均衡コーパス』に基づくオノマトペの分析-品詞性の検討を中心に-2011

    • Author(s)
      宮内佐夜香・小木曽智信・小磯花絵・小椋秀樹
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 651-654

  • [Journal Article] 長単位に基づく『現代日本語書き言葉均衡コーパス』の品詞比率に関する分析2011

    • Author(s)
      冨士池優美・小西光・小椋秀樹・小木曽智信・小磯花絵
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 663-666

  • [Journal Article] テキストの多様性をとらえる分類指標の体系化の試み2011

    • Author(s)
      小磯花絵・田中弥生・小木曽智信・近藤明日子
    • Journal Title

      言語処理学会第17回年次大会発表論文集

      Pages: 683-686

  • [Journal Article] 複合名詞内アクセント句境界を用いたアクセント結合予測の高精度化に関する実験的検討2011

    • Author(s)
      高野克弥・清水信哉・峯松信明・広瀬啓吉
    • Journal Title

      日本音響学会2011年春季研究発表会講演論文集

      Pages: 363-364

  • [Journal Article] 長単位に基づく媒体・カテゴリ間の品詞比率に関する分析2011

    • Author(s)
      冨士池優美・小西光・小椋秀樹・小木曽智信・小磯花絵
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 273-280

  • [Journal Article] BCCWJに基づくオノマトペの品詞と意味についての分析2011

    • Author(s)
      宮内佐夜香・小木曽智信・小磯花絵・小椋秀樹
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 281-288

  • [Journal Article] Web版コーパス検索アプリケーション「中納言」のデモンストレーション2011

    • Author(s)
      中村壮範・小木曽智信
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 289-292

  • [Journal Article] 階層的形態論情報を考慮した『現代日本語書き言葉均衡コーパス』の公開用XMLフォーマット2011

    • Author(s)
      小木曽智信・間淵洋子・前川喜久雄
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 293-300

  • [Journal Article] BCCWJに基づく中・長単位解析ツール2011

    • Author(s)
      小澤俊介・内元清貴・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 331-338

  • [Journal Article] UniDicを用いた音声認識用言語モデルの作成2011

    • Author(s)
      山田篤
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 339-342

  • [Journal Article] UniDic2:設計と実装2011

    • Author(s)
      小木曽智信・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 411-418

  • [Journal Article] テキストの多様性をとらえる分類指標の構築を目指して2011

    • Author(s)
      小磯花絵・田中弥生・小木曽智信・近藤明日子
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 431-438

  • [Journal Article] Design, compilation, and preliminary analyses of Balanced Corpus of Contemporary Written Japanese2010

    • Author(s)
      K.Maekawa, M.Yamazaki, T.Maruyama, M.Yamaguchi, H.Ogura, W.Kashino, T.Ogiso, H.Koiso, Y.Den
    • Journal Title

      Proceedings of LREC2010

      Pages: 1483-1486

    • Peer Reviewed
  • [Journal Article] 『現代日本語書き言葉均衡コーパス』長単位解析に基づく予備的分析2010

    • Author(s)
      冨士池優美・小椋秀樹・小西光・小木曽智信・小磯花絵
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度全体会議予稿集

      Pages: 101-108

  • [Journal Article] 汎用後処理ツールを用いた短単位解析結果の再解析2010

    • Author(s)
      アブドレイム アブドハリリ・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度全体会議予稿集

      Pages: 141-144

  • [Journal Article] 汎用後処理ツールを用いた音変化処理の評価2010

    • Author(s)
      山田篤・渡部涼子・小木曽智信
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度全体会議予稿集

      Pages: 145-150

  • [Journal Article] BCCWJに基づく長単位解析ツール2010

    • Author(s)
      小澤俊介・内元清貴・伝康晴
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度全体会議予稿集

      Pages: 151-156

  • [Book] 『現代日本語書き言葉均衡コーパス』形態論情報規定集第4版(上・下)2011

    • Author(s)
      小椋秀樹・小磯花絵・冨士池優美・宮内佐夜香・小西光・原裕
    • Total Pages
      359
    • Publisher
      特定領域研究「日本語コーパス」平成22年度研究成果報告書
  • [Book] 『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装改訂版2011

    • Author(s)
      小木曽智信・中村壮範
    • Total Pages
      145
    • Publisher
      特定領域研究「日本語コーパス」平成22年度研究成果報告書
  • [Remarks]

    • URL

      http://download.unidic.org/

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi