研究課題/領域番号 |
22500140
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 湘南工科大学 |
研究代表者 |
鈴木 誠 湘南工科大学, 工学部, 准教授 (80339796)
|
連携研究者 |
大須賀 昭彦 電気通信大学, 大学院・情報システム学研究科, 教授 (90393842)
後藤 正幸 早稲田大学, 創造理工学部・経営システム工学科, 教授 (40287967)
須子 統太 早稲田大学, メディアネットワークセンター, 助教 (40409660)
|
研究期間 (年度) |
2010 – 2012
|
キーワード | 多言語処理 / 機械学習 / モデル化 / 文書自動分類 / N-gram |
研究概要 |
文字N-グラムに基づく言語独立なテキスト分類手法である蓄積手法を提案した。蓄積手法は、索引語を形成する際に文字N-グラムを使用するので、言語固有の文法構造に依存しない。テキスト文書がUnicodeで表現されてさえいれば、蓄積手法は異なる言語に対しても同一のプログラムを用いて文書を分類することができる。そこで、この蓄積手法を用いて英語と日本語と韓国語と中国語のテキスト文書の分類実験をした。その結果、英語のReuters-21578は94.5%、日本語の毎日新聞の実験データは88.5%、韓国語のハンギョレー新聞の実験データは90.2%、中国語の人民日報の実験データに対しても92.6%の精度で分類することができた。このように、蓄積手法が様々な言語で比較的高い精度で分類できることを確認した。さらに、蓄積手法の数理モデルを構築し、その数理的な意味を解明することができた。
|