• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2006 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Planned Research

Project AreaCompilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number 18061002
Research InstitutionChiba University

Principal Investigator

傳 康晴  千葉大学, 文学部, 助教授 (70291458)

Co-Investigator(Kenkyū-buntansha) 山田 篤  京都高度技術研究所, 研究開発部, 室長 (20240004)
峯松 信明  東京大学, 大学院新領域創成科学研究科, 助教授 (90273333)
内元 清貴  情報通信機構, 情報通信部門, 主任研究員 (60358885)
小磯 花絵  国立国語研究所, 研究開発部門, 研究員 (30312200)
小木曽 智信  国立国語研究所, 研究開発部門, 研究員 (20337489)
Keywords電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント / 辞書データベース / 単位の自動構成
Research Abstract

本計画班の目的は、従来開発を進めてきた形態素解析システム用電子化辞書UniDicを整備・拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。
この目的を達成するために、本年度は以下のことを行なった。
(1)本研究領域で用いる短単位辞書を関係データベースとして実装し、10万語を超える辞書情報の登録を行なった(本研究領域研究項目A01「データ班」と共同)。語形の変異や表記の揺れに対応するため、階層的見出しを採用し、その閲覧・編集の機能を持った辞書登録フォームを開発・運用した。
(2)辞書データベースと学習コーパスから形態素解析システム用辞書を生成するプログラムを作成し、形態素解析システムChaSenで運用・評価を行なった。テストデータに対して、97%以上の精度を得た。また、ChaSenでの利用を手軽にするためのGUIやテキスト中の数字表現を前処理するシステムを開発した。
(3)語の複合に伴う音変化・アクセント変化に関するデータを作成し、調査・モデル化を行なった。数詞・助数詞類の結合に伴う音変化を扱うシステム、統計にもとづくアクセント変化処理システムを開発した。後者のため、アクセント付きコーパス(約4000文)を作成した。
(4)中・長単位の自動構成に関するデータ・プロトタイプシステムを作成した。統計的チャンキングモデルによる長単位解析では、話し言葉コーパスで学習したモデルで書き言葉コーパスを解析し良好な結果を得た。また、中単位解析のためのタグ付きコーパスおよびタグ付け支援ツールを作成した。

  • Research Products

    (10 results)

All 2007 2006

All Journal Article (10 results)

  • [Journal Article] Morphological annotation of a large spontaneous speech corpus in Japanese2007

    • Author(s)
      K.Uchimoto, H.Isahara
    • Journal Title

      Proceedings of the Twentieth International Joint Conference on Artificial Intelligence

      Pages: 1731-1737

  • [Journal Article] 特定話者による大規模アクセントラベリングとそのデータベース化2007

    • Author(s)
      黒岩龍, 峯松信明, 伝康晴, 広瀬啓吉
    • Journal Title

      日本音響学会2007年春季研究発表会講演論文集

      Pages: 299-300

  • [Journal Article] 日本語音声合成を目的としたアクセント処理のための規則と統計的学習2007

    • Author(s)
      黒岩龍, 峯松信明, 広瀬啓吉
    • Journal Title

      日本音響学会春季講演論文集

      Pages: 301-302

  • [Journal Article] 平成18年度進捗状況報告 : 電子化辞書班(多様な目的に適した形態素解析システム用電子化辞書の開発)2007

    • Author(s)
      伝康晴, 山田篤, 峯松信明, 内元清貴, 小木曽智信
    • Journal Title

      日本語コーパス(特定領域研究)(平成18年度公開ワークショップ予稿集)

      Pages: 37-46

  • [Journal Article] 「現代日本語書き言葉均衡コーパス」における短単位の概要2007

    • Author(s)
      小椋秀樹, 小木曽智信, 小磯花絵, 冨士池優美, 相馬さつき, 渡部涼子, 服部龍太郎
    • Journal Title

      日本語コーパス(特定領域研究)(平成18年度公開ワークショップ予稿集)

      Pages: 101-108

  • [Journal Article] 単独ラベラによる大規模アクセントラベリングとそれを用いた統計的アクセント結合処理の実装2007

    • Author(s)
      峯松信明, 黒岩龍
    • Journal Title

      日本語コーパス(特定領域研究)(平成18年度公開ワークショップ予稿集)

      Pages: 143-152

  • [Journal Article] 「現代日本語書き言葉均衡コーパス」の短単位解析について2007

    • Author(s)
      小椋秀樹, 小木曽智信, 小磯花絵, 冨士池優美, 相馬さつき
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 720-723

  • [Journal Article] 大規模アクセントラベリングコーパスの構築とそれに基づくハイブリッド型アクセント結合処理2007

    • Author(s)
      黒岩龍, 峯松信明, 伝康晴, 広瀬啓吉
    • Journal Title

      言語処理学会第13回年次大会発表論文集

      Pages: 724-727

  • [Journal Article] 単独ラベラによる大規模アクセントデータベースの構築およびそれを利用した統計的アクセント結合処理の検討2007

    • Author(s)
      黒岩龍, 峯松信明, 伝康晴, 広瀬啓吉
    • Journal Title

      電子情報通信学会技術研究報告 SP2006-174

      Pages: 31-36

  • [Journal Article] Dependency-structure annotation to Corpus of Spontaneous Japanese2006

    • Author(s)
      K.Uchimoto, R.Hamabe, T.Maruyama, K.Takanashi, T.Kawahara, H.Isahara
    • Journal Title

      Proceedings of the Fifth International Conference on Language Resources and Evaluation

      Pages: 635-638

URL: 

Published: 2008-05-08   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi