2007 Fiscal Year Annual Research Report
多様な目的に適した形態素解析システム用電子化辞書の開発
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061002
|
Research Institution | Chiba University |
Principal Investigator |
傳 康晴 Chiba University, 文学部, 准教授 (70291458)
|
Co-Investigator(Kenkyū-buntansha) |
山田 篤 京都高度技術研究所, 研究開発部, 室長 (20240004)
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
内元 清貴 情報通信研究機構, 情報通信部門, 主任研究員 (60358885)
小木曽 智信 国立国語研究所, 研究開発部門, 研究員 (20337489)
小磯 花絵 国立国語研究所, 研究開発部門, 研究員 (30312200)
|
Keywords | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント |
Research Abstract |
本計画班の目的は、形態素解析システム用電子化辞書UniDicを拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。昨年度までに、(1)短単位辞書を関係データベースとして実装、辞書情報の登録を行い、(2)辞書データベースと学習コーパスから形態素解析システム用辞書を作成、ChaSenで運用・評価を行い、(3)音変化・アクセント変化に関する調査・モデル化を行い、(4)中・長単位の自動構成に関するプロトタイプシステムを作成した。本年度は以下のことを行った。 (1)短単位辞書の拡充:語種情報の追加・「終止形」「連体形」の区別などを行うとともに、新規登録語を随時追加した(語彙素約11万項目・書字形約16万項目)。 (2)形態素解析システム用辞書の解析精度向上:ChaSen版に加えて、MeCab版を実装し、語種情報を利用することで解析精度を向上した(品詞認定:98.97%、語彙素認定:98.7%)。さらに、誤解析の多い助詞・助動詞を再解析する手法を提案し、高い効果を得た。 (3)音変化・アクセント変化処理の改善:「Web日本語Nグラム」データから連濁・促音化の事例を抽出し、統計学習のためのデータとして整備した。アクセント変化処理では、条件付確率場モデルによって、高い精度を達成した。 (4)中・長単位構成システムを作成し、文節・長単位の同時推定で97.2%の高精度を得た。また、短単位間の係り受け解析による中単位構成システムを作成し、高い精度を達成した。
|