1995 Fiscal Year Annual Research Report
Project/Area Number |
07780309
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科計算工学専攻, 助教授 (20197875)
|
Keywords | ベイズの定理 / 確率理論 / 文書の自動分類 / 情報検索 |
Research Abstract |
文書の自動分類とは,入力として与えられた文書をその内容から判断し,あらかじめ決めれらたカテゴリに分類するタスクである.これまでに提案されている文書の自動分類の手法は大きく分けての以下の2つに分類できる. ・ベクタスペースモデル ・確率モデル ベクタスペースモデルは,文書をその構成要素である語の頻度ベクトルとして表現し,同様に表現されたカテゴリとのベクトル間の距離計算によってカテゴリを決定する.一方,確率モデルは入力文書がカテゴリに分類される確率を確率理論に基づいて計算するものである.基本確率はやはり語の頻度から計算することが多いが,ベクタスペースモデルに比べると数学的な基礎がしっかりしており,計算された値の意味付けもはっきりしているという利点がある.これまでにもいくつかの確率モデルが提案されているが,その多くは不十分な訓練データで訓練する際にスムージングをおこなわなければならないという問題点をもっている.本研究では,この問題を克服する確率モデルの基礎を提案し,Wall Street Journalの3ケ月分に相当する約9000記事を用いて評価実験をおこなった.その結果従来のベクタスペースモデルに比べてBreakevenで評価したRecall-Precisionにおいて精度を約15%改善できることがわかった.
|