研究概要 |
条件付き確率場の近似法である平均化パーセプトロン学習を用いて逆系列アラインメント(inverse parametric sequence alignment)問題を解くための手法を提案した.逆系列アラインメントとはすなわち,与えられた訓練データから編集コストモデルを学習する問題である.応用として生物学文書(英語)および日本語(百科辞典および新聞記事)からの並列句検出および範囲同定に適用し,既存法に比べて高い精度を得た.タグ付け(教師データ)が不十分な場合でも対処するために2種類のヒューリスティックを提案し,その有効性を実証した.
|