1. HHMM(階層HMM)はHMMを一般化した生成モデルであり、時系列データの状態を階層的に表現する。我々はHHMMに対する識別モデルとして、HHCRF(階層隠れCRF)を提案する。先行研究では、脳波データやビデオデータを使用した応用実験においてHHMMとHHCRFを比較し、HHCRFの有効性を確認した。本年度はHHMMとHHCRFの更なる性能比較のために、生成モデルと識別モデルの性質を考慮しつつ人工データ実験を行った。実験結果から、パラメータ学習時の訓練集合サイズが大きくなり、かつデータ生成源が非一次マルコフモデルに近づくについて、状態系列推定におけるHHCRFの性能がHHMMのそれより高くなることを示した。 2. 情報抽出の対象になりやすい人名、組織名を文中で特定するタスクを固有表現抽出という。固有表現抽出システムは教師つき学習で実現する方法が主流である。先行研究ではHHMMを用いた固有表現抽出を提案している。本研究では、HHCRFを用いた固有表現抽出を提案し、実験においてHHMMに比べてより高い適合率を持つことを示した。
|