Research Abstract |
本研究では,大量のテキストデータに対して豊富な言語情報を効率よく付与するという手法の研究を行った.さらに,豊富な言語情報が付与されたテキストから,様々な言語現象に関する知識を統一的に獲得する手法について研究をおこなった.本年度の研究項目は次の3点である. 1.テキストから動詞の語彙知識を獲得する際に,名詞の語義などの意味情報を効率よく付与する. 2.様々な言語知識を対象として,確率モデル学習の手法に基づいて,テキストから言語知識を学習する. 3.計算機による判断が困難な部分に人間の判断を許し,高精度な語彙知識をテキストから半自動的に獲得する. まず,第1点については,構文情報が付与されたテキストから動詞の語彙知識を獲得する際に,名詞の語義などの意味情報の有無が,獲得結果の精度にどのように影響するかについての予備調査を行った.さらに,名詞の語義などの意味情報を,人間の判断を最小限に抑えながら,効率よく付与する手法について,調査研究を行った. また,第2点については,(1)日本語形態素解析,(2)統語解析のための動詞語彙知識の学習,の二つを例題として,モデルを記述する言語情報の記述の細かさを徐々に調整しながら,なるべく解析誤りを少なくする方向にモデルを自動改良していく手法を開発した.実際に,(1)の日本語形態素解析においては,高精度な日本語形態素解析を実現することに成功した.また,(2)統語解析のための動詞語彙知識の学習においても,名詞と動詞の間の共起性を記述する高精度な共起知識を学習することに成功した. さらに,第3点においては,動詞の語彙知識獲得を例題として,人間の判断を最小限に抑えながら,高精度な動詞語彙知識をテキストから半自動的に効率よく獲得する手法を実現し,また,人間の判断を計算機に効率よく伝えるためのインタフェースを開発した.実際に,構文情報が付与されたテキストから動詞の語彙知識を獲得する実験を通して,高精度な動詞語彙知識が効率よく獲得できることを確認した.
|