2008 Fiscal Year Annual Research Report
多様な目的に適した形態素解析システム用電子化辞書の開発
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061002
|
Research Institution | Chiba University |
Principal Investigator |
傳 康晴 Chiba University, 文学部, 教授 (70291458)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信 千葉大学, 国立国語研究所・研究開発部門, 研究員 (20337489)
小磯 花絵 千葉大学, 国立国語研究所・研究開発部門, 研究員 (30312200)
|
Keywords | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント |
Research Abstract |
本計画班の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1) 本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2) 日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。昨年度までに、(1) 形態素解析システムChaSenで利用できる辞書(10万語以上)を公開し、(2) 形態素解析システムMeCabでさらに精度向上できることを確認し、(3) 音変化・アクセント変化に関する調査・モデル化を行い、(4) 中・長単位自動構成システムのプロトタイプを作成した。 本年度は以下のことを行った。 (1) 短単位辞書の拡充 : 登録情報の整理を行うとともに、新規登録語を随時追加した(語彙素約15万項目・書字形約21.5万項目)。 (2) 形態素解析システム用辞書の解析精度向上 : とくにMeCab版において、解析精度を向上した(品詞認定 : 98.9%、語彙素認定 : 98.6%)。さらに、解析テキストのジャンルごとに適応した辞書を作成する手法を提案し、高い効果を得た。 (3) 音変化・アクセント変化処理の改善 : 連濁・促音化の事例を収集し、統計学習の手法を試行した。アクセント変化処理では、規則処理を考慮することで統計学習を高精度化した。 (4) 中・長単位構成システムの開発 : 統計学習による長単位自動構成システムを改良し、長単位の解析精度を向上した(境界認定98.6%、品詞認定97.7%)。また、中単位構成システムで用いる学習データを増強した。
|
Research Products
(23 results)