研究概要 |
文書の自動分類とは,入力として与えられた文書をその内容から判断し,あらかじめ決めれらたカテゴリに分類するタスクである.これまでに提案されている文書の自動分類の手法は大きく分けての以下の2つに分類できる. ・ベクタスペースモデル ・確率モデル ベクタスペースモデルは,文書をその構成要素である語の頻度ベクトルとして表現し,同様に表現されたカテゴリとのベクトル間の距離計算によってカテゴリを決定する.一方,確率モデルは入力文書がカテゴリに分類される確率を確率理論に基づいて計算するものである.基本確率はやはり語の頻度から計算することが多いが,ベクタスペースモデルに比べると数学的な基礎がしっかりしており,計算された値の意味付けもはっきりしているという利点がある.これまでにもいくつかの確率モデルが提案されているが,その多くは不十分な訓練データで訓練する際にスムージングをおこなわなければならないという問題点をもっている.本研究では,この問題を克服する確率モデルの基礎を提案し,Wall Street Journalの3ケ月分に相当する約9000記事を用いて評価実験をおこなった.その結果従来のベクタスペースモデルに比べてBreakevenで評価したRecall-Precisionにおいて精度を約15%改善できることがわかった.
|