• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

確率理論に基づく文書の自動分類に関する研究

Research Project

Project/Area Number 07780309
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionTokyo Institute of Technology

Principal Investigator

徳永 健伸  東京工業大学, 大学院・情報理工学研究科計算工学専攻, 助教授 (20197875)

Project Period (FY) 1995
Project Status Completed (Fiscal Year 1995)
Budget Amount *help
¥1,100,000 (Direct Cost: ¥1,100,000)
Fiscal Year 1995: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywordsベイズの定理 / 確率理論 / 文書の自動分類 / 情報検索
Research Abstract

文書の自動分類とは,入力として与えられた文書をその内容から判断し,あらかじめ決めれらたカテゴリに分類するタスクである.これまでに提案されている文書の自動分類の手法は大きく分けての以下の2つに分類できる.
・ベクタスペースモデル
・確率モデル
ベクタスペースモデルは,文書をその構成要素である語の頻度ベクトルとして表現し,同様に表現されたカテゴリとのベクトル間の距離計算によってカテゴリを決定する.一方,確率モデルは入力文書がカテゴリに分類される確率を確率理論に基づいて計算するものである.基本確率はやはり語の頻度から計算することが多いが,ベクタスペースモデルに比べると数学的な基礎がしっかりしており,計算された値の意味付けもはっきりしているという利点がある.これまでにもいくつかの確率モデルが提案されているが,その多くは不十分な訓練データで訓練する際にスムージングをおこなわなければならないという問題点をもっている.本研究では,この問題を克服する確率モデルの基礎を提案し,Wall Street Journalの3ケ月分に相当する約9000記事を用いて評価実験をおこなった.その結果従来のベクタスペースモデルに比べてBreakevenで評価したRecall-Precisionにおいて精度を約15%改善できることがわかった.

Report

(1 results)
  • 1995 Annual Research Report

URL: 

Published: 1995-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi