2006 Fiscal Year Annual Research Report
多様な目的に適した形態素解析システム用電子化辞書の開発
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061002
|
Research Institution | Chiba University |
Principal Investigator |
傳 康晴 千葉大学, 文学部, 助教授 (70291458)
|
Co-Investigator(Kenkyū-buntansha) |
山田 篤 京都高度技術研究所, 研究開発部, 室長 (20240004)
峯松 信明 東京大学, 大学院新領域創成科学研究科, 助教授 (90273333)
内元 清貴 情報通信機構, 情報通信部門, 主任研究員 (60358885)
小磯 花絵 国立国語研究所, 研究開発部門, 研究員 (30312200)
小木曽 智信 国立国語研究所, 研究開発部門, 研究員 (20337489)
|
Keywords | 電子化辞書 / 形態素解析 / 書き言葉コーパス / 音変化 / アクセント / 辞書データベース / 単位の自動構成 |
Research Abstract |
本計画班の目的は、従来開発を進めてきた形態素解析システム用電子化辞書UniDicを整備・拡充・改良することにより、(1)本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、(2)日本語学・日本語教育学における語彙・文法調査研究、自然言語処理における構文・意味解析研究、音声情報処理におけるテキスト音声合成研究など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。 この目的を達成するために、本年度は以下のことを行なった。 (1)本研究領域で用いる短単位辞書を関係データベースとして実装し、10万語を超える辞書情報の登録を行なった(本研究領域研究項目A01「データ班」と共同)。語形の変異や表記の揺れに対応するため、階層的見出しを採用し、その閲覧・編集の機能を持った辞書登録フォームを開発・運用した。 (2)辞書データベースと学習コーパスから形態素解析システム用辞書を生成するプログラムを作成し、形態素解析システムChaSenで運用・評価を行なった。テストデータに対して、97%以上の精度を得た。また、ChaSenでの利用を手軽にするためのGUIやテキスト中の数字表現を前処理するシステムを開発した。 (3)語の複合に伴う音変化・アクセント変化に関するデータを作成し、調査・モデル化を行なった。数詞・助数詞類の結合に伴う音変化を扱うシステム、統計にもとづくアクセント変化処理システムを開発した。後者のため、アクセント付きコーパス(約4000文)を作成した。 (4)中・長単位の自動構成に関するデータ・プロトタイプシステムを作成した。統計的チャンキングモデルによる長単位解析では、話し言葉コーパスで学習したモデルで書き言葉コーパスを解析し良好な結果を得た。また、中単位解析のためのタグ付きコーパスおよびタグ付け支援ツールを作成した。
|
Research Products
(10 results)