1996 Fiscal Year Annual Research Report
辞書の語義文を利用したコーパスの自動細分類と文の対象分野同定への応用
Project/Area Number |
08780342
|
Research Institution | University of Yamanashi |
Principal Investigator |
福本 文代 山梨大学, 工学部, 助手 (60262648)
|
Keywords | 文書の自動分類 / 多義語の曖昧性の解消 / 統計手法 / 名詞同士のリンク付け / コーパス |
Research Abstract |
本研究ではコーパスの自動分類に関する手法の提案を行なった.本研究でアピールする点,特に関連する研究との差異に注目した特徴は以下の通りである. ・分野が限定されているコーパスをさらに細かく分類するために,多義語の解消と名詞同士のリンク付けを行なっている. 新聞記事,百科事典など,広範囲の分野を対象とした研究は従来から数多く行なわれている.これらの多くは頻度情報を基に語の統計的な情報を用いて分類を行なっている.しかし,予め分野が限定されているコーパスにおいて,これらの手法を用いて各文書の特徴を表現することは難しい.本研究ではこの問題に対処するため,名詞の多義解消と名詞同士のリンク付け(意味的に近い名詞同士をクラスでまとめる)を提案し,これを用いることで文書の分類を行なっている(論文1参照). 実験では,先ず本手法で用いられている多義の解消と名詞間のリンク付けが文書のクラスタリングに対して有効であるかどうかを検証するため,1.単語の重み付けに頻度を用いて文書のクラスタリングを行なう手法,2.多義の解消のみを行なう手法,3.名詞間のリンク付けのみを行なう手法,4.多義の解消と名詞間のリンク付けを行なう手法(本手法)の実験を行なった.その結果,それぞれ,47.5%,52.5%,57.5%,72.5%の正解率が得られた.次に,湯浅らの提案した名詞間の共起関係を利用した文書の分類方法と比較した結果,湯浅らの手法が平均65.0%に対し,本手法では,72.5%の正解率を得た(論文2参照).
|
-
[Publications] F.Fukumoto,Y.Suzuki: "Aoutomatic Clustering of Articles Using Dictionary Definitions" 16th International Conference on Computational Linguistics (COLING'96). 406-411 (1996)
-
[Publications] 福本文代,鈴木良弥,福本淳一: "辞書の語義文を用いた文書の自動分類" 情報処理学会論文誌. 37・10. 1789-1799 (1996)