2012 Fiscal Year Annual Research Report
古今東西の全言語を対象にしたテキストマイニングに関する研究
Project/Area Number |
22500140
|
Research Institution | Shonan Institute of Technology |
Principal Investigator |
鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | 多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram |
Research Abstract |
交付申請書に記載した「①処理対象となる言語の拡張」と「②基礎理論の構築」の二点について主に研究を進めた。 初めに①については、その研究成果を英語の論文にまとめ、査読付きの国際学会であるISITA2012とAPIEMS2012にて発表した(「13.研究発表(平成24年度の研究成果)」[雑誌論文]の欄を参照されたい)。ISITA2012では、中国語のテキスト文書を分類し、提案手法である蓄積手法が中国語に対しても良い結果を得ることができた。さらに、蓄積手法を用いてコンピューターが各文書の分類の難しさを自動的に識別することができる枠組みを構築した。また、APIEMS2012では、素性として文字N-gramの代わりに単語N-gramを用いた。単語N-gramを使う場合、言語固有の文法知識が必要である。英語のような言語の場合は、文章をスペースで区切ることによって単語を簡単に切り出すことができるので、文字N-gramを用いた場合とほぼ同様のプログラムを用いて素性を生成することができる。しかし、日本語のような膠着語の場合は、形態素解析のような言語固有の文法知識を利用した前処理が必要になる。そこで、実験データとして英語と日本語の新聞記事を用いて実験を行いて、提案手法の有効性を検証した。 次に②について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、その研究会でも検討させていただいた研究内容を論文にまとめ、電子情報通信学会論文誌に投稿した。その結果、2013年3月号にその成果が掲載された。また、簡易な状態遷移モデルを利用することにより、言語固有の文法知識を用いることなく、単語を切り出す手法を考案した。これは言語を問わず、日本語と中国語などの膠着語に対し、ある程度の良い精度で単語を切り出すことができ、この手法を言語独立な文書分類手法にも利用できることを確認した。
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|