研究概要 |
本研究は、主題だけではなく、各テキストがもつ特徴を考慮した様々な観点からの分類を行うことが目的である.主題以外のカテゴリ(non-topical)にテキストを分類する場合、そのカテゴリを主題カテゴリと同様に扱うことができるのか、主題以外のカテゴリ独自の問題があるのかなどを検討するために、「Human Values(価値観)」を主題以外のカテゴリとして、テキストの自動分類実験を行った。Human Valuesのカテゴリとして用いたのは、社会科学の研究分野において広く用いられているSchwartz Values Inventory(SVI)である。SVIは、「Freedom」「Capable」「Equahty」など56の基本カテゴリと、これらを10グループに分けた第二レベル、さらに4グループに分けた第一レベルの三階層構造である。対象としたテキストは、公聴会におけるネットの中立に関する声明文である。16文書1,010文章にSVIカテゴリを人手で割り当てたテストコレクションを作成し、自動分類実験を行った。文章は複数のカテゴリが付与されていることもある。分類ツールはWekaを用い、手法にはSVMとkNN(k=1, 3, 5, 7, 10, 13, 15)を用いた。各文章を、テキスト中に実際に出現した第三レベルの42カテゴリに分類したところ、精度27,2%、再現率35.8%であった(kNN、k=15)。第二レベルでは、精度42.4%、再現率48.9%、第一レベルでは、精度60.1%、再現率622%であった(kNN、k=15)。これらの結果から、従来の分類手法を用いても、ある程度の分類は可能であることはわかった。しかしながら、更なる改良が必要である。今後は、テストコレクションを増やすこと、また、分類ツールに入力するにはどのようなテキストの特徴がよいか検討する予定である。
|