確率理論に基づく文書の自動分類に関する研究

Research Project

Project/Area Number	07780309
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Tokyo Institute of Technology
Principal Investigator	徳永健伸東京工業大学, 大学院・情報理工学研究科計算工学専攻, 助教授 (20197875)
Project Period (FY)	1995
Project Status	Completed (Fiscal Year 1995)
Budget Amount *help	¥1,100,000 (Direct Cost: ¥1,100,000) Fiscal Year 1995: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	ベイズの定理 / 確率理論 / 文書の自動分類 / 情報検索
Research Abstract	文書の自動分類とは,入力として与えられた文書をその内容から判断し,あらかじめ決めれらたカテゴリに分類するタスクである.これまでに提案されている文書の自動分類の手法は大きく分けての以下の2つに分類できる. ・ベクタスペースモデル・確率モデルベクタスペースモデルは,文書をその構成要素である語の頻度ベクトルとして表現し,同様に表現されたカテゴリとのベクトル間の距離計算によってカテゴリを決定する.一方,確率モデルは入力文書がカテゴリに分類される確率を確率理論に基づいて計算するものである.基本確率はやはり語の頻度から計算することが多いが,ベクタスペースモデルに比べると数学的な基礎がしっかりしており,計算された値の意味付けもはっきりしているという利点がある.これまでにもいくつかの確率モデルが提案されているが,その多くは不十分な訓練データで訓練する際にスムージングをおこなわなければならないという問題点をもっている.本研究では,この問題を克服する確率モデルの基礎を提案し,Wall Street Journalの3ケ月分に相当する約9000記事を用いて評価実験をおこなった.その結果従来のベクタスペースモデルに比べてBreakevenで評価したRecall-Precisionにおいて精度を約15%改善できることがわかった.

Report

(1 results)

1995 Annual Research Report