2010 年度実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究課題

研究課題/領域番号	22500140
研究機関	湘南工科大学
研究代表者	鈴木誠湘南工科大学, 工学部・情報工学科, 准教授 (80339796)
キーワード	多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram
研究概要	今年度は、交付申請書に記載した「(1)処理対象となる言語の拡張」と「(2)基礎理論の構築」の2点について主に研究を進めた。はじめに(1)については、その研究成果を2件の英語の論文にまとめ、査読付きの国際学会であるSMC2010とISITA2010にてそれぞれ発表した。前者は、文書検索モデルとして古くから存在する"ベクトル空間モデル"に基づき、条件付確率を用いた新たなテキスト分類における数理モデルと分類手法を提案した。そして、ベンチマークのデータである英語の新聞記事Reuters-21578と、日本語のCD-毎日新聞2002を利用して実験を行うことにより、提案モデルの有効性を示した。さらに後者は、SMC2010で発表した手法に改良を加え、英語と台湾語を実験データとして用いて、提案方式の評価実験を行った。特に、英語のReuters-21578に対しては94.5%という高い精度で分類できることが確認できた。次に(2)について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、日本経営工学会論文誌の論文はその研究会における成果である。テキスト分類問題においては、個々の単語の出現頻度は非常に少なく、多くの単語の出現頻度がゼロとなってしまうというスパースネスの問題がある。すなわち,このベクトル空間上で一つの文書を表す点は、ゼロを多くの要素に持つベクトルで表現される。しかし「このような状況で文書どうしの距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えられているのみであった。そこで、その理論的根拠を与えるため、この論文では各要素の出現頻度を有限に保ったまま、次元数を無限大とする新たな漸近論の概念を導入することにより、スパースな文書ベクトル間の距離について解析的な性能を示した。

研究成果
(5件)

すべて 2010 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 図書 (1件) 備考 (1件)

[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010
- 著者名/発表者名
  後藤正幸, 石田崇, 鈴木誠, 平澤茂一
- 雑誌名
  
  日本経営工学会論文誌
  
  巻: Vol.61 ページ: 97-106
- 査読あり
[雑誌論文] On a New Model for Automatic Text Categorization Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, T.Ishida, M.Goto, S.Hirasawa
- 雑誌名
  
  Proc.of IEEE International Conference on Systems, Man, and Cybernetics 2010
  
  ページ: 3152-3159
- 査読あり
[雑誌論文] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai, T.Ishida, M.Goto
- 雑誌名
  
  Proc.of International Symposium on Information Theory and its Applications 2010
  
  ページ: 106-111
- 査読あり
[図書] 確率統計学2010
- 著者名/発表者名
  須子統太, 鈴木誠, 浮田善文, 小林学, 後藤正幸
- 総ページ数
  251
- 出版者
  オーム社
[備考]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

2010 年度 実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究代表者

鈴木 誠 湘南工科大学, 工学部・情報工学科, 准教授 (80339796)

研究成果

[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010

著者名/発表者名

雑誌名

[雑誌論文] On a New Model for Automatic Text Categorization Based on Vector Space Model2010

著者名/発表者名

雑誌名

[雑誌論文] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010

著者名/発表者名

雑誌名

[図書] 確率統計学2010

著者名/発表者名

総ページ数

出版者

[備考]

URL

2010 年度実績報告書

鈴木誠湘南工科大学, 工学部・情報工学科, 准教授 (80339796)