2012 年度研究成果報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究課題

研究課題/領域番号	22500140
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	湘南工科大学
研究代表者	鈴木誠湘南工科大学, 工学部, 准教授 (80339796)
連携研究者	大須賀昭彦電気通信大学, 大学院・情報システム学研究科, 教授 (90393842) 後藤正幸早稲田大学, 創造理工学部・経営システム工学科, 教授 (40287967) 須子統太早稲田大学, メディアネットワークセンター, 助教 (40409660)
研究期間 (年度)	2010 – 2012
キーワード	多言語処理 / 機械学習 / モデル化 / 文書自動分類 / N-gram
研究概要	文字N-グラムに基づく言語独立なテキスト分類手法である蓄積手法を提案した。蓄積手法は、索引語を形成する際に文字N-グラムを使用するので、言語固有の文法構造に依存しない。テキスト文書がUnicodeで表現されてさえいれば、蓄積手法は異なる言語に対しても同一のプログラムを用いて文書を分類することができる。そこで、この蓄積手法を用いて英語と日本語と韓国語と中国語のテキスト文書の分類実験をした。その結果、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データは88.5%、韓国語のハンギョレー新聞の実験データは90.2%、中国語の人民日報の実験データに対しても92.6%の精度で分類することができた。このように、蓄積手法が様々な言語で比較的高い精度で分類できることを確認した。さらに、蓄積手法の数理モデルを構築し、その数理的な意味を解明することができた。

研究成果
(11件)

すべて 2013 2012 2011 2010 その他

すべて雑誌論文 (2件) 学会発表 (7件) 図書 (1件) 備考 (1件)

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013
- 著者名/発表者名
  山岸直秀,鈴木誠,渡辺重佳
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: Vol.J96-D,No.3 ページ: 441-451
[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010
- 著者名/発表者名
  後藤正幸,石田崇,鈴木誠,平澤茂一
- 雑誌名
  
  日本経営工学会論文誌
  
  巻: Vol.61,No.3 ページ: 97-106
[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察2012
- 著者名/発表者名
  鈴木誠,山岸直秀
- 学会等名
  第35回情報理論とその応用シンポジウム予稿集
- 発表場所
  大分
- 年月日
  20120000
[学会発表] English and Japanese Text Categorization Using Word and Character N-grams2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai and M.Goto
- 学会等名
  Proc. of Asia Pacific Industrial Engineering and Management Systems Conference (APIEMS2012)
- 発表場所
  タイ
- 年月日
  20120000
[学会発表] Chinese Text Categorization Using the Character N-gram2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and Y.C.Tsai
- 学会等名
  Proc. of International Symposium on Information Theory and its Applications (ISITA 2012)
- 発表場所
  アメリカ合衆国
- 年月日
  20120000
[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012
- 著者名/発表者名
  山岸直秀,鈴木誠,渡辺重佳
- 学会等名
  日本経営工学会西関東支部第12回学生論文発表会予稿集
- 発表場所
  早稲田大学
- 年月日
  20120000
[学会発表] Korean Text Categorization Using the Character N-gram2011
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and M.Goto
- 学会等名
  Proc. of International Conference on Information Technology and Applications (ICITA 2011)
- 発表場所
  オーストラリア
- 年月日
  20110000
[学会発表] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai, T.Ishida and M.Goto
- 学会等名
  Proc. of International Symposium on Information Theory and itsApplications (ISITA 2010)
- 発表場所
  台湾
- 年月日
  20100000
[学会発表] On a New Model for Automatic Text Categorization Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, T.Ishida, M.Goto and S.Hirasawa
- 学会等名
  Proc. of IEEE International Conference on Systems, Man, and Cybernetics 2010 (SMC 2010)
- 発表場所
  トルコ
- 年月日
  20100000
[図書] 確率統計学2010
- 著者名/発表者名
  須子統太,鈴木誠,浮田善文,小林学,後藤正幸
- 出版者
  オーム社
[備考]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

2012 年度 研究成果報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究代表者

鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)

研究成果

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013

著者名/発表者名

雑誌名

[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010

著者名/発表者名

雑誌名

[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] English and Japanese Text Categorization Using Word and Character N-grams2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Chinese Text Categorization Using the Character N-gram2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Korean Text Categorization Using the Character N-gram2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] On a New Model for Automatic Text Categorization Based on Vector Space Model2010

著者名/発表者名

学会等名

発表場所

年月日

[図書] 確率統計学2010

著者名/発表者名

出版者

[備考]

URL

2012 年度研究成果報告書

鈴木誠湘南工科大学, 工学部, 准教授 (80339796)