古今東西の全言語を対象にしたテキストマイニングに関する研究

研究課題

研究課題/領域番号	22500140
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	湘南工科大学
研究代表者	鈴木誠湘南工科大学, 工学部, 准教授 (80339796)
連携研究者	大須賀昭彦電気通信大学, 大学院・情報システム学研究科, 教授 (90393842) 後藤正幸早稲田大学, 創造理工学部・経営システム工学科, 教授 (40287967) 須子統太早稲田大学, メディアネットワークセンター, 助教 (40409660)
研究期間 (年度)	2010 – 2012
研究課題ステータス	完了 (2012年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2012年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2011年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2010年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	多言語処理 / 機械学習 / モデル化 / 文書自動分類 / N-gram / テキストマイニング
研究概要	文字N-グラムに基づく言語独立なテキスト分類手法である蓄積手法を提案した。蓄積手法は、索引語を形成する際に文字N-グラムを使用するので、言語固有の文法構造に依存しない。テキスト文書がUnicodeで表現されてさえいれば、蓄積手法は異なる言語に対しても同一のプログラムを用いて文書を分類することができる。そこで、この蓄積手法を用いて英語と日本語と韓国語と中国語のテキスト文書の分類実験をした。その結果、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データは88.5%、韓国語のハンギョレー新聞の実験データは90.2%、中国語の人民日報の実験データに対しても92.6%の精度で分類することができた。このように、蓄積手法が様々な言語で比較的高い精度で分類できることを確認した。さらに、蓄積手法の数理モデルを構築し、その数理的な意味を解明することができた。

報告書

(4件)

研究成果
(23件)

すべて 2013 2012 2011 2010 その他

すべて雑誌論文 (8件) (うち査読あり 6件) 学会発表 (9件) 図書 (2件) 備考 (4件)

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013
- 著者名/発表者名
  山岸直秀,鈴木誠,渡辺重佳
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: Vol.J96-D,No.3 ページ: 441-451
- NAID
  110009593013
- 関連する報告書
  2012 実績報告書 2012 研究成果報告書
[雑誌論文] Chinese Text Categorization Using the Character N-gram2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and Y.C.Tsai
- 雑誌名
  
  Proc. of International Symposium on Information Theory and its Applications
  
  巻: ISITA 2012 ページ: 722-726
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] English and Japanese Text Categorization Using Word and Character N-grams2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai and M.Goto
- 雑誌名
  
  Proc. of Asia Pacific Industrial Engineering and Management Systems Conference
  
  巻: APIEMS 2012 ページ: 715-722
- 関連する報告書
  2012 実績報告書
- 査読あり
[雑誌論文] Korean Text Categorization Using the Character N-gram2011
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, M.Goto
- 雑誌名
  
  Proc.of International Conference on Information Technology and Applications (ICITA 2011)
  
  ページ: 197-202
- 関連する報告書
  2011 実績報告書
- 査読あり
[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010
- 著者名/発表者名
  後藤正幸,石田崇,鈴木誠,平澤茂一
- 雑誌名
  
  日本経営工学会論文誌
  
  巻: Vol.61,No.3 ページ: 97-106
- 関連する報告書
  2012 研究成果報告書
[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010
- 著者名/発表者名
  後藤正幸, 石田崇, 鈴木誠, 平澤茂一
- 雑誌名
  
  日本経営工学会論文誌
  
  巻: Vol.61 ページ: 97-106
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] On a New Model for Automatic Text Categorization Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, T.Ishida, M.Goto, S.Hirasawa
- 雑誌名
  
  Proc.of IEEE International Conference on Systems, Man, and Cybernetics 2010
  
  ページ: 3152-3159
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai, T.Ishida, M.Goto
- 雑誌名
  
  Proc.of International Symposium on Information Theory and its Applications 2010
  
  ページ: 106-111
- 関連する報告書
  2010 実績報告書
- 査読あり
[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012
- 著者名/発表者名
  山岸直秀, 鈴木誠, 渡辺重佳
- 学会等名
  日本経営工学会西関東支部第12回学生論文発表会
- 発表場所
  早稲田大学
- 年月日
  2012-02-19
- 関連する報告書
  2011 実績報告書
[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察2012
- 著者名/発表者名
  鈴木誠,山岸直秀
- 学会等名
  第35回情報理論とその応用シンポジウム予稿集
- 発表場所
  大分
- 関連する報告書
  2012 研究成果報告書
[学会発表] English and Japanese Text Categorization Using Word and Character N-grams2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai and M.Goto
- 学会等名
  Proc. of Asia Pacific Industrial Engineering and Management Systems Conference (APIEMS2012)
- 発表場所
  タイ
- 関連する報告書
  2012 研究成果報告書
[学会発表] Chinese Text Categorization Using the Character N-gram2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and Y.C.Tsai
- 学会等名
  Proc. of International Symposium on Information Theory and its Applications (ISITA 2012)
- 発表場所
  アメリカ合衆国
- 関連する報告書
  2012 研究成果報告書
[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012
- 著者名/発表者名
  山岸直秀,鈴木誠,渡辺重佳
- 学会等名
  日本経営工学会西関東支部第12回学生論文発表会予稿集
- 発表場所
  早稲田大学
- 関連する報告書
  2012 研究成果報告書
[学会発表] Korean Text Categorization Using the Character N-gram2011
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and M.Goto
- 学会等名
  Proc. of International Conference on Information Technology and Applications (ICITA 2011)
- 発表場所
  オーストラリア
- 関連する報告書
  2012 研究成果報告書
[学会発表] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai, T.Ishida and M.Goto
- 学会等名
  Proc. of International Symposium on Information Theory and itsApplications (ISITA 2010)
- 発表場所
  台湾
- 関連する報告書
  2012 研究成果報告書
[学会発表] On a New Model for Automatic Text Categorization Based on Vector Space Model2010
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, T.Ishida, M.Goto and S.Hirasawa
- 学会等名
  Proc. of IEEE International Conference on Systems, Man, and Cybernetics 2010 (SMC 2010)
- 発表場所
  トルコ
- 関連する報告書
  2012 研究成果報告書
[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察
- 著者名/発表者名
  鈴木誠, 山岸直秀
- 学会等名
  第35回情報理論とその応用シンポジウム
- 発表場所
  別府湾ロイヤルホテル
- 関連する報告書
  2012 実績報告書
[図書] 確率統計学2010
- 著者名/発表者名
  須子統太,鈴木誠,浮田善文,小林学,後藤正幸
- 出版者
  オーム社
- 関連する報告書
  2012 研究成果報告書
[図書] 確率統計学2010
- 著者名/発表者名
  須子統太, 鈴木誠, 浮田善文, 小林学, 後藤正幸
- 総ページ数
  251
- 出版者
  オーム社
- 関連する報告書
  2010 実績報告書
[備考]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html
- 関連する報告書
  2012 研究成果報告書
[備考] 鈴木研究室
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html
- 関連する報告書
  2012 実績報告書
[備考]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html
- 関連する報告書
  2011 実績報告書
[備考]
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html
- 関連する報告書
  2010 実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究代表者

鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)

4,160千円 (直接経費: 3,200千円、間接経費: 960千円)

報告書

研究成果

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Chinese Text Categorization Using the Character N-gram2012

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] English and Japanese Text Categorization Using Word and Character N-grams2012

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Korean Text Categorization Using the Character N-gram2011

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 高次元ベクトル空間モデルによるテキスト分類問題について-分類性能と距離構造の漸近解析-2010

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] On a New Model for Automatic Text Categorization Based on Vector Space Model2010

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察2012

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] English and Japanese Text Categorization Using Word and Character N-grams2012

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Chinese Text Categorization Using the Character N-gram2012

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] 状態遷移モデルへの適応による教師なし単語分割手法の提案2012

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] Korean Text Categorization Using the Character N-gram2011

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] English And Taiwanese Text Categorization Using N-gram Based on Vector Space Model2010

著者名/発表者名

学会等名

発表場所

関連する報告書

[学会発表] On a New Model for Automatic Text Categorization Based on Vector Space Model2010

著者名/発表者名

学会等名

発表場所

関連する報告書

鈴木誠湘南工科大学, 工学部, 准教授 (80339796)