研究概要 |
本研究ではコーパスの自動分類に関する手法の提案を行なった.本研究でアピールする点,特に関連する研究との差異に注目した特徴は以下の通りである. ・分野が限定されているコーパスをさらに細かく分類するために,多義語の解消と名詞同士のリンク付けを行なっている. 新聞記事,百科事典など,広範囲の分野を対象とした研究は従来から数多く行なわれている.これらの多くは頻度情報を基に語の統計的な情報を用いて分類を行なっている.しかし,予め分野が限定されているコーパスにおいて,これらの手法を用いて各文書の特徴を表現することは難しい.本研究ではこの問題に対処するため,名詞の多義解消と名詞同士のリンク付け(意味的に近い名詞同士をクラスでまとめる)を提案し,これを用いることで文書の分類を行なっている(論文1参照). 実験では,先ず本手法で用いられている多義の解消と名詞間のリンク付けが文書のクラスタリングに対して有効であるかどうかを検証するため,1.単語の重み付けに頻度を用いて文書のクラスタリングを行なう手法,2.多義の解消のみを行なう手法,3.名詞間のリンク付けのみを行なう手法,4.多義の解消と名詞間のリンク付けを行なう手法(本手法)の実験を行なった.その結果,それぞれ,47.5%,52.5%,57.5%,72.5%の正解率が得られた.次に,湯浅らの提案した名詞間の共起関係を利用した文書の分類方法と比較した結果,湯浅らの手法が平均65.0%に対し,本手法では,72.5%の正解率を得た(論文2参照).
|