2009 Fiscal Year Annual Research Report
多様な目的に適した形態素解析システム用電子化辞書の開発
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061002
|
Research Institution | Chiba University |
Principal Investigator |
傳 康晴 Chiba University, 文学部, 教授 (70291458)
|
Co-Investigator(Kenkyū-buntansha) |
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
小木曽 智信 国立国語研究所, 言語資源研究系, 准教授 (20337489)
小磯 花絵 国立国語研究所, 理論・構造研究系, 准教授 (30312200)
|
Keywords | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント |
Research Abstract |
本研究の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙.文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。 本年度は以下のことを行った。 (1)短単位辞書の拡充:登録情報の整理を行うとともに、新規登録語を随時追加した(語彙素約18.3万項目・書字形約28.6万項目)。 (2)形態素解析システム用辞書の公開:最新版(MeCab版)の解析精度は品詞認定:98.9%、語彙素認定:98.6%。 (3)UniDic ver.2の準備:短単位辞書をXMLデータとして公開するために、形態素解析システム用辞書との整合性を調整した。 (4)汎用後処理モジュールの開発:従来独立のモジュールとして開発してきた、特定品詞再解析モジュールや音変化処理モジュールを汎用後処理モジュールに統合した。 (5)その他:アクセント変化処理での中単位情報の利用について検討した。また、長単位構成システムの改良を行った。 本研究で提供する形態素解析辞書はその規模・記載内容において最高水準のものであり、また解析システムは短単位解析から長単位構成・音変化処理・アクセント処理までカバーしており他に類を見ないものである。
|
Research Products
(17 results)
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Design, compilation, and preliminary analyses of balanced corpus of contemporary written Japanese2010
Author(s)
K.Maekawa, M.Yamazaki, T.Maruyama, M.Yamaguchi, H.Ogura, W.Kashino, T.Ogiso, H.Koiso, Y.Den
-
Journal Title
Proceedings of the 7th International Conference on Language Resources and Evaluation (掲載確定)
Peer Reviewed
-
-
-
-
-
-