2010 Fiscal Year Annual Research Report
多様な目的に適した形態素解析システム用電子化辞書の開発
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061002
|
Research Institution | Chiba University |
Principal Investigator |
傳 康晴 千葉大学, 文学部, 教授 (70291458)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信 国立国語研究所, 言語資源研究系, 准教授 (20337489)
小磯 花絵 国立国語研究所, 理論・構造研究系, 准教授 (30312200)
|
Keywords | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント変化 |
Research Abstract |
本研究の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。本年度は以下のことを行った。 (1)短単位辞書の拡充:新規登録語を随時追加した(語彙素約21万項目・書字形約33万項目)。 (2)形態素解析システム用辞書の公開:最新版(MeCab版)の解析精度は品詞認定:98.9%、語彙素認定:98.5%。 (3)UniDic 2の開発:XML形式の短単位辞書と形態素解析システム辞書への変換ツールを開発した。 (4)中・長単位解析ツールの開発:短単位解析結果から長単位・中単位を自動構成するツールを開発。 解析精度は、長単位で境界認定:98.9%、品詞認定:98.6%、中単位で境界認定:99.2%。 (5)音変化・アクセント変化処理システムの開発:汎用後処理ツールを用いて、音変化・アクセント変化処理を行うシステムを開発した。 本研究の成果である形態素解析辞書はその規模・記載内容において最高水準のものであり、また解析システムは短単位解析から中・長単位構成、音変化処理、アクセント変化処理までカバーしており他に類を見ないものである。
|
Research Products
(23 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Design, compilation, and preliminary analyses of Balanced Corpus of Contemporary Written Japanese2010
Author(s)
K.Maekawa, M.Yamazaki, T.Maruyama, M.Yamaguchi, H.Ogura, W.Kashino, T.Ogiso, H.Koiso, Y.Den
-
Journal Title
Proceedings of LREC2010
Pages: 1483-1486
Peer Reviewed
-
-
-
-
-
-
-