2012 年度実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究課題

研究課題/領域番号	22500140
研究機関	湘南工科大学
研究代表者	鈴木誠湘南工科大学, 工学部, 准教授 (80339796)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram
研究概要	交付申請書に記載した「①処理対象となる言語の拡張」と「②基礎理論の構築」の二点について主に研究を進めた。初めに①については、その研究成果を英語の論文にまとめ、査読付きの国際学会であるISITA2012とAPIEMS2012にて発表した（「13.研究発表(平成24年度の研究成果)」[雑誌論文]の欄を参照されたい）。ISITA2012では、中国語のテキスト文書を分類し、提案手法である蓄積手法が中国語に対しても良い結果を得ることができた。さらに、蓄積手法を用いてコンピューターが各文書の分類の難しさを自動的に識別することができる枠組みを構築した。また、APIEMS2012では、素性として文字N-gramの代わりに単語N-gramを用いた。単語N-gramを使う場合、言語固有の文法知識が必要である。英語のような言語の場合は、文章をスペースで区切ることによって単語を簡単に切り出すことができるので、文字N-gramを用いた場合とほぼ同様のプログラムを用いて素性を生成することができる。しかし、日本語のような膠着語の場合は、形態素解析のような言語固有の文法知識を利用した前処理が必要になる。そこで、実験データとして英語と日本語の新聞記事を用いて実験を行いて、提案手法の有効性を検証した。次に②について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、その研究会でも検討させていただいた研究内容を論文にまとめ、電子情報通信学会論文誌に投稿した。その結果、2013年3月号にその成果が掲載された。また、簡易な状態遷移モデルを利用することにより、言語固有の文法知識を用いることなく、単語を切り出す手法を考案した。これは言語を問わず、日本語と中国語などの膠着語に対し、ある程度の良い精度で単語を切り出すことができ、この手法を言語独立な文書分類手法にも利用できることを確認した。
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(5件)

すべて 2013 2012 その他

すべて雑誌論文 (3件) (うち査読あり 2件) 学会発表 (1件) 備考 (1件)

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013
- 著者名/発表者名
  山岸直秀,鈴木誠,渡辺重佳
- 雑誌名
  
  電子情報通信学会論文誌
  
  巻: Vol.J96-D,No.3 ページ: 441-451
[雑誌論文] Chinese Text Categorization Using the Character N-gram2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi and Y.C.Tsai
- 雑誌名
  
  Proc. of International Symposium on Information Theory and its Applications
  
  巻: ISITA 2012 ページ: pp.722-726
- 査読あり
[雑誌論文] English and Japanese Text Categorization Using Word and Character N-grams2012
- 著者名/発表者名
  M.Suzuki, N.Yamagishi, Y.C.Tsai and M.Goto
- 雑誌名
  
  Proc. of Asia Pacific Industrial Engineering and Management Systems Conference
  
  巻: APIEMS 2012 ページ: pp.715-722
- 査読あり
[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察
- 著者名/発表者名
  鈴木誠, 山岸直秀
- 学会等名
  第35回情報理論とその応用シンポジウム
- 発表場所
  別府湾ロイヤルホテル
[備考] 鈴木研究室
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

2012 年度 実績報告書

古今東西の全言語を対象にしたテキストマイニングに関する研究

研究代表者

鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)

理由

研究成果

[雑誌論文] 任意の外部記憶容量で動作するマージソート2013

著者名/発表者名

雑誌名

[雑誌論文] Chinese Text Categorization Using the Character N-gram2012

著者名/発表者名

雑誌名

[雑誌論文] English and Japanese Text Categorization Using Word and Character N-grams2012

著者名/発表者名

雑誌名

[学会発表] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察

著者名/発表者名

学会等名

発表場所

[備考] 鈴木研究室

URL

2012 年度実績報告書

鈴木誠湘南工科大学, 工学部, 准教授 (80339796)