Research Abstract |
本研究では,大量のテキストデータに対して豊富な言語情報を効率よく付与するという手法の研究を行った.さらに,豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する手法について研究をおこなった.本年度の研究項目は次の2点である. 1. 豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を獲得する際に,それぞれの言語現象の特性に応じて,最適な言語知識獲得手法を適用し,言語知識獲得を行う. 2. 獲得された大規模言語知識が,実際の言語処理の性能向上にどの程度寄与するかを理論的・実験的に評価・検証する. まず,第1点については,言語知識獲得に適用可能な代表的手法として,確率モデル学習および機械学習の二種類の手法に着目し,それぞれの言語知識の獲得に最適な手法について研究を行った.具体的には,確率モデル学習の手法が適した例題として,(1)日本語形態素解析,(2)統語解析のための動詞語彙知識の学習,の二つについて,モデルを記述する言語情報の記述の細かさを徐々に調整しながら,なるべく解析誤りを少なくする方向にモデルを自動改良していく手法を開発した.また,機械学習の手法が適した例題として,(3)日本語従属節の係り受け関係の解析,について,従属節の様々な特徴のうち,従属節間の係り受け関係の特定に最も寄与する特徴を選択的に学習することに成功した. 第2点については,まず,(2)の統語解析のための動詞語彙知識の学習において,統語的曖昧性の解消の性能に関して,幾つかの対照モデルと比較して,確率モデル学習の手法により構築された最適モデルが最も優れでいることを示した.また,(3)の日本語従属節の係り受け関係の解析において,獲得された言語知識を用いてあらかじめ従属節間の係り受け関係を特定しておくことにより,文全体の係り受け解析の性能が向上することを示した.
|