2012 Fiscal Year Annual Research Report

古今東西の全言語を対象にしたテキストマイニングに関する研究

Research Project

Project/Area Number	22500140
Research Institution	Shonan Institute of Technology
Principal Investigator	鈴木誠湘南工科大学, 工学部, 准教授 (80339796)
Project Period (FY)	2010-04-01 – 2013-03-31
Keywords	多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram
Research Abstract	交付申請書に記載した「①処理対象となる言語の拡張」と「②基礎理論の構築」の二点について主に研究を進めた。初めに①については、その研究成果を英語の論文にまとめ、査読付きの国際学会であるISITA2012とAPIEMS2012にて発表した（「13.研究発表(平成24年度の研究成果)」[雑誌論文]の欄を参照されたい）。ISITA2012では、中国語のテキスト文書を分類し、提案手法である蓄積手法が中国語に対しても良い結果を得ることができた。さらに、蓄積手法を用いてコンピューターが各文書の分類の難しさを自動的に識別することができる枠組みを構築した。また、APIEMS2012では、素性として文字N-gramの代わりに単語N-gramを用いた。単語N-gramを使う場合、言語固有の文法知識が必要である。英語のような言語の場合は、文章をスペースで区切ることによって単語を簡単に切り出すことができるので、文字N-gramを用いた場合とほぼ同様のプログラムを用いて素性を生成することができる。しかし、日本語のような膠着語の場合は、形態素解析のような言語固有の文法知識を利用した前処理が必要になる。そこで、実験データとして英語と日本語の新聞記事を用いて実験を行いて、提案手法の有効性を検証した。次に②について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、その研究会でも検討させていただいた研究内容を論文にまとめ、電子情報通信学会論文誌に投稿した。その結果、2013年3月号にその成果が掲載された。また、簡易な状態遷移モデルを利用することにより、言語固有の文法知識を用いることなく、単語を切り出す手法を考案した。これは言語を問わず、日本語と中国語などの膠着語に対し、ある程度の良い精度で単語を切り出すことができ、この手法を言語独立な文書分類手法にも利用できることを確認した。
Current Status of Research Progress	Reason 24年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	24年度が最終年度であるため、記入しない。

Research Products
(5 results)

All 2013 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 2 results) Presentation (1 results) Remarks (1 results)

[Journal Article] 任意の外部記憶容量で動作するマージソート2013
- Author(s)
  山岸直秀,鈴木誠,渡辺重佳
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: Vol.J96-D,No.3 Pages: 441-451
[Journal Article] Chinese Text Categorization Using the Character N-gram2012
- Author(s)
  M.Suzuki, N.Yamagishi and Y.C.Tsai
- Journal Title
  
  Proc. of International Symposium on Information Theory and its Applications
  
  Volume: ISITA 2012 Pages: pp.722-726
- Peer Reviewed
[Journal Article] English and Japanese Text Categorization Using Word and Character N-grams2012
- Author(s)
  M.Suzuki, N.Yamagishi, Y.C.Tsai and M.Goto
- Journal Title
  
  Proc. of Asia Pacific Industrial Engineering and Management Systems Conference
  
  Volume: APIEMS 2012 Pages: pp.715-722
- Peer Reviewed
[Presentation] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察
- Author(s)
  鈴木誠, 山岸直秀
- Organizer
  第35回情報理論とその応用シンポジウム
- Place of Presentation
  別府湾ロイヤルホテル
[Remarks] 鈴木研究室
- URL
  http://www.info.shonan-it.ac.jp/suzuki-lab/profile.html

2012 Fiscal Year Annual Research Report

古今東西の全言語を対象にしたテキストマイニングに関する研究

Principal Investigator

鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)

Reason

Research Products

[Journal Article] 任意の外部記憶容量で動作するマージソート2013

Author(s)

Journal Title

[Journal Article] Chinese Text Categorization Using the Character N-gram2012

Author(s)

Journal Title

[Journal Article] English and Japanese Text Categorization Using Word and Character N-grams2012

Author(s)

Journal Title

[Presentation] 単語N-gramと文字N-gramを用いた日本語の文書分類に関する一考察

Author(s)

Organizer

Place of Presentation

[Remarks] 鈴木研究室

URL

鈴木誠湘南工科大学, 工学部, 准教授 (80339796)