2007 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Planned Research

Project Area	Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics
Project/Area Number	18061002
Research Institution	Chiba University
Principal Investigator	傳康晴 Chiba University, 文学部, 准教授 (70291458)
Co-Investigator(Kenkyū-buntansha)	山田篤京都高度技術研究所, 研究開発部, 室長 (20240004) 峯松信明東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333) 内元清貴情報通信研究機構, 情報通信部門, 主任研究員 (60358885) 小木曽智信国立国語研究所, 研究開発部門, 研究員 (20337489) 小磯花絵国立国語研究所, 研究開発部門, 研究員 (30312200)
Keywords	電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント
Research Abstract	本計画班の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。昨年度までに、(1)短単位辞書を関係データベースとして実装、辞書情報の登録を行い、(2)辞書データベースと学習コーパスから形態素解析システム用辞書を作成、ChaSenで運用・評価を行い、(3)音変化・アクセント変化に関する調査・モデル化を行い、(4)中・長単位の自動構成に関するプロトタイプシステムを作成した。本年度は以下のことを行った。 (1)短単位辞書の拡充:語種情報の追加・「終止形」「連体形」の区別などを行うとともに、新規登録語を随時追加した(語彙素約11万項目・書字形約16万項目)。 (2)形態素解析システム用辞書の解析精度向上:ChaSen版に加えて、MeCab版を実装し、語種情報を利用することで解析精度を向上した(品詞認定:98.97%、語彙素認定:98.7%)。さらに、誤解析の多い助詞・助動詞を再解析する手法を提案し、高い効果を得た。 (3)音変化・アクセント変化処理の改善:「Web日本語Nグラム」データから連濁・促音化の事例を抽出し、統計学習のためのデータとして整備した。アクセント変化処理では、条件付確率場モデルによって、高い精度を達成した。 (4)中・長単位構成システムを作成し、文節・長単位の同時推定で97.2%の高精度を得た。また、短単位間の係り受け解析による中単位構成システムを作成し、高い精度を達成した。

Research Products
(12 results)

All 2008 2007

All Journal Article (12 results) (of which Peer Reviewed: 4 results)

[Journal Article] 平成19年度進捗状況報告:電子化辞書班(多様な目的に適した形態素解析システム用電子化辞書の開発)2008
- Author(s)
  伝康晴・山田篤・峯松信明・内元清貴・小木曽智信・小磯花絵
- Journal Title
  
  特定領域研究「日本語コーパス」平成19年度公開ワークショップ(研究成果報告会)予稿集
  
  Pages: 79-84
[Journal Article] 中・長単位解析システムの開発2008
- Author(s)
  内元清貴・伝康晴
- Journal Title
  
  特定領域研究「日本語コーパス」平成19年度公開ワークショップ(研究成果報告会)予稿集
  
  Pages: 159-166
[Journal Article] CRFを用いたアクセント結合処理に対する誤り分析とその改良に向けた考察2008
- Author(s)
  印南圭祐・渡辺美知子・峯松信明・広瀬啓吉
- Journal Title
  
  日本音響学会春季講演論文集
  
  Pages: 413-414
[Journal Article] 語種情報を用いた同表記異音語の解消2008
- Author(s)
  伝康晴・中村純平・小木曽智信・小椋秀樹
- Journal Title
  
  言語処理学会第14回年次大会発表論文集
  
  Pages: 69-72
[Journal Article] 形態素解析誤りの多い助詞・助動詞の再解析2008
- Author(s)
  中村純平・伝康晴
- Journal Title
  
  言語処理学会第14回年次大会発表論文集
  
  Pages: 73-76
[Journal Article] 「現代日本語書き言葉均衡コーパス」の長単位認定基準について2008
- Author(s)
  冨士池優美・小椋秀樹・小木曽智信・小磯花絵・内元清貴・相馬さつき・中村壮範
- Journal Title
  
  言語処理学会第14回年次大会発表論文集
  
  Pages: 931-934
[Journal Article] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008
- Author(s)
  小椋秀樹・小木曽智信・原裕・小磯花絵・冨士池優美
- Journal Title
  
  言語処理学会第14回年次大会発表論文集
  
  Pages: 935-938
[Journal Article] CRFに基づくアクセント変形予測モデルにおけるエラー解析2008
- Author(s)
  印南圭祐・渡辺美知子・峯松信明・広瀬啓吉
- Journal Title
  
  言語処理学会第14回年次大会発表論文集
  
  Pages: 969-972
[Journal Article] コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用2007
- Author(s)
  伝康晴・小木曽智信・小椋秀樹・山田篤・峯松信明・内元清貴・小磯花絵
- Journal Title
  
  日本語科学 22
  
  Pages: 101-122
- Peer Reviewed
[Journal Article] Morphological annotation of a large spontaneous speech corpus in Japanese2007
- Author(s)
  Uchimoto, K., & Isahara, H
- Journal Title
  
  Proc. of IJCAI2007
  
  Pages: 1731-1737
- Peer Reviewed
[Journal Article] CRF-based statistical learning of Japanese accent sandhi for developing Japanese text-to-speech synthesis systems2007
- Author(s)
  Minematsu, N., Kuroiwa, R., Hirose, K., & Watanabe, M
- Journal Title
  
  Proc. of ISCA Workshop on Speech Synthesis
  
  Pages: 148-153
- Peer Reviewed
[Journal Article] 日本語研究に適した形態素解析ソフトウェア-「unidic」と「茶まめ」-2007
- Author(s)
  小木曽智信・小椋秀樹・伝康晴
- Journal Title
  
  日本語学会2007年度秋季大会予稿集
  
  Pages: 255-262
- Peer Reviewed

2007 Fiscal Year Annual Research Report

多様な目的に適した形態素解析システム用電子化辞書の開発

Principal Investigator

傳 康晴 Chiba University, 文学部, 准教授 (70291458)

Research Products

[Journal Article] 平成19年度進捗状況報告:電子化辞書班(多様な目的に適した形態素解析システム用電子化辞書の開発)2008

Author(s)

Journal Title

[Journal Article] 中・長単位解析システムの開発2008

Author(s)

Journal Title

[Journal Article] CRFを用いたアクセント結合処理に対する誤り分析とその改良に向けた考察2008

Author(s)

Journal Title

[Journal Article] 語種情報を用いた同表記異音語の解消2008

Author(s)

Journal Title

[Journal Article] 形態素解析誤りの多い助詞・助動詞の再解析2008

Author(s)

Journal Title

[Journal Article] 「現代日本語書き言葉均衡コーパス」の長単位認定基準について2008

Author(s)

Journal Title

[Journal Article] 形態素解析用辞書UniDicへの語種情報の実装と政府刊行白書の語種比率の分析2008

Author(s)

Journal Title

[Journal Article] CRFに基づくアクセント変形予測モデルにおけるエラー解析2008

Author(s)

Journal Title

[Journal Article] コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用2007

Author(s)

Journal Title

[Journal Article] Morphological annotation of a large spontaneous speech corpus in Japanese2007

Author(s)

Journal Title

[Journal Article] CRF-based statistical learning of Japanese accent sandhi for developing Japanese text-to-speech synthesis systems2007

Author(s)

Journal Title

[Journal Article] 日本語研究に適した形態素解析ソフトウェア-「unidic」と「茶まめ」-2007

Author(s)

Journal Title

傳康晴 Chiba University, 文学部, 准教授 (70291458)