研究領域 | 代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備 |
研究課題/領域番号 |
18061002
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
人文・社会系
|
研究機関 | 千葉大学 |
研究代表者 |
傳 康晴 千葉大学, 文学部, 教授 (70291458)
|
研究分担者 |
山田 篤 京都高度技術研究所, 研究部, 主席研究員 (20240004)
峯松 信明 東京大学, 大学院・新領域創成科学研究科, 准教授 (90273333)
内元 清貴 情報通信研究機構, 総合企画部, プランニングマネージャー (60358885)
小木曽 智信 国立国語研究所, 言語・資源研究系, 准教授 (20337489)
小磯 花絵 国立国語研究所, 理論・構造研究系, 准教授 (30312200)
|
研究期間 (年度) |
2006 – 2010
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
91,900千円 (直接経費: 91,900千円)
2010年度: 17,700千円 (直接経費: 17,700千円)
2009年度: 19,000千円 (直接経費: 19,000千円)
2008年度: 19,000千円 (直接経費: 19,000千円)
2007年度: 19,000千円 (直接経費: 19,000千円)
2006年度: 17,200千円 (直接経費: 17,200千円)
|
キーワード | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント / アクセント変化 / 辞書データベース / 単位の自動構成 |
研究概要 |
(1) 以下の特徴を持つ形態素解析辞書UniDicを設計・開発した。 ・ 「短単位」という揺れがない斉一な単位で設計 ・ 語彙素・語形・書字形・発音形の階層構造を持ち、表記の揺れや語形の変異にかかわらず同一の見出しを与えることが可能 ・ アクセントや音変化の情報を付与でき、テキスト音声合成などに利用可能 (2) 辞書データベースを構築しながら、形態素解析システム MeCab 用辞書を随時公開し、最終的に語彙素約 21 万語・書字形約 33 万語の規模と、品詞認定約 98.9%・語彙素認定約 98.6%の解析精度を達成した。 (3) さらに、辞書データベースを XML ファイル群として記述し、ユーザがカスタマイズ可能な辞書作成環境を提供する新しい方式で UniDic2 を設計・開発した。 (4) 中・長単位解析システムを含む、形態素解析の後処理ツール群を作成し、多様な目的に供した。
|