2010 Fiscal Year Annual Research Report

古今東西の全言語を対象にしたテキストマイニングに関する研究

Research Project

Project/Area Number	22500140
Research Institution	Shonan Institute of Technology
Principal Investigator	鈴木誠湘南工科大学, 工学部・情報工学科, 准教授 (80339796)
Keywords	多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram
Research Abstract	今年度は、交付申請書に記載した「(1)処理対象となる言語の拡張」と「(2)基礎理論の構築」の2点について主に研究を進めた。はじめに(1)については、その研究成果を2件の英語の論文にまとめ、査読付きの国際学会であるSMC2010とISITA2010にてそれぞれ発表した。前者は、文書検索モデルとして古くから存在する"ベクトル空間モデル"に基づき、条件付確率を用いた新たなテキスト分類における数理モデルと分類手法を提案した。そして、ベンチマークのデータである英語の新聞記事Reuters-21578と、日本語のCD-毎日新聞2002を利用して実験を行うことにより、提案モデルの有効性を示した。さらに後者は、SMC2010で発表した手法に改良を加え、英語と台湾語を実験データとして用いて、提案方式の評価実験を行った。特に、英語のReuters-21578に対しては94.5%という高い精度で分類できることが確認できた。次に(2)について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、日本経営工学会論文誌の論文はその研究会における成果である。テキスト分類問題においては、個々の単語の出現頻度は非常に少なく、多くの単語の出現頻度がゼロとなってしまうというスパースネスの問題がある。すなわち,このベクトル空間上で一つの文書を表す点は、ゼロを多くの要素に持つベクトルで表現される。しかし「このような状況で文書どうしの距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えられているのみであった。そこで、その理論的根拠を与えるため、この論文では各要素の出現頻度を有限に保ったまま、次元数を無限大とする新たな漸近論の概念を導入することにより、スパースな文書ベクトル間の距離について解析的な性能を示した。

Research Products
(5 results)

All 2010 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Book (1 results) Remarks (1 results)

[Journal Article] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010
- Author(s)
  後藤正幸, 石田崇, 鈴木誠, 平澤茂一
- Journal Title
  
  日本経営工学会論文誌
  
  Volume: Vol.61 Pages: 97-106
- Peer Reviewed
[Journal Article] On a New Model for Automatic Text Categorization Based on Vector Space Model2010
- Author(s)
  M.Suzuki, N.Yamagishi, T.Ishida, M.Goto, S.Hirasawa
- Journal Title
  
  Proc.of IEEE International Conference on Systems, Man, and Cybernetics 2010
  
  Pages: 3152-3159
- Peer Reviewed
[Journal Article] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010
- Author(s)
  M.Suzuki, N.Yamagishi, Y.C.Tsai, T.Ishida, M.Goto
- Journal Title
  
  Proc.of International Symposium on Information Theory and its Applications 2010
  
  Pages: 106-111
- Peer Reviewed
[Book] 確率統計学2010
- Author(s)
  須子統太, 鈴木誠, 浮田善文, 小林学, 後藤正幸
- Total Pages
  251
- Publisher
  オーム社
[Remarks]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

2010 Fiscal Year Annual Research Report

古今東西の全言語を対象にしたテキストマイニングに関する研究

Principal Investigator

鈴木 誠 湘南工科大学, 工学部・情報工学科, 准教授 (80339796)

Research Products

[Journal Article] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010

Author(s)

Journal Title

[Journal Article] On a New Model for Automatic Text Categorization Based on Vector Space Model2010

Author(s)

Journal Title

[Journal Article] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010

Author(s)

Journal Title

[Book] 確率統計学2010

Author(s)

Total Pages

Publisher

[Remarks]

URL

鈴木誠湘南工科大学, 工学部・情報工学科, 准教授 (80339796)