研究課題/領域番号 |
22500140
|
研究機関 | 湘南工科大学 |
研究代表者 |
鈴木 誠 湘南工科大学, 工学部・情報工学科, 准教授 (80339796)
|
キーワード | 多言語処理 / 機械学習 / モデル化 / テキストマイニング / 文書自動分類 / N-gram |
研究概要 |
交付申請書に記載した「(1)処理対象となる言語の拡張」と「(2)基礎理論の構築」の二点について主に研究を進めた。 はじめに(1)については、その研究成果を英語の論文にまとめ、査読付きの国際学会であるICITA2011にて発表した(「13.研究発表(平成23年度の研究成果)」[雑誌論文]の欄を参照されたい)。これは、韓国語のハンギョレー新聞の記事を実験データとして用いて、昨年度のISITA2010で発表した手法により文書分類を行った結果をまとめたものである。韓国語の実験データに対して90.2%の精度で分類することができた。なお同様の方法で、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データに対しては88.5%という比較的高い精度で分類できることが確認できている。さらに数ヶ月前の実験により、中国語に対しても92.6%の精度で分類できることがわかり、論文を投稿した。この論文は、現在審査中である。 次に(2)について述べる。現在、早稲田大学にて連携研究者の方々と定期的に研究会を開催しており、その研究会における成果を論文にまとめ、電子情報通信学会論文誌に投稿した。しかし、審査結果は残念ながら不採録となってしまった。今後、査読者に指摘された点を修正して、再投稿する予定である。また、簡易な状態遷移モデルを利用することにより、言語固有の文法知識を用いることなく、単語を切り出す手法を考案した。これは言語を問わず、日本語と中国語である程度の良い精度で単語を切り出せることが確認できた。この手法は言語独立な文書分類手法にも利用できる可能性が高いので、今後はこれまでの研究成果をさらに発展させていく予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
先の「9.研究実績の概要」に記した通り、投稿論文が不採録になってしまった。今後、論文をリバイスして再投稿する予定である。
|
今後の研究の推進方策 |
以下の「13.研究発表(平成23年度の研究成果)」[学会発表1の欄に記載した論文は、言語固有の文法知識を用いることなく、単語を切り出す手法を提案しており、これを利用して、これまでの研究成果をさらに発展させていく予定である。
|