研究課題
本研究は、主題だけではなく、各テキストがもつ特徴を考慮した様々な観点からの分類を行うことが目的である。主題以外のカテゴリ(non-topical category)にテキストを分類する場合、そのカテゴリは妥当であるのか、分類は可能か、主題以外のカテゴリ独自の問題があるのかなどを検討することが必要である。本年度も引き続き、「Human Values(価値観)」を主題以外のカテゴリとして、テキストの自動分類実験を行った。まず、ネットの中立に関する米国の公聴会での28証言に対し、人の価値観を表すカテゴリSchwartz Values Inventoryを付与したテストコレクションを作成した。次に、これを用いて自動分類実験を行った。テストコレクションには複数のカテゴリが付与されているデータも含まれていたため、分類器のための学習用データ表現方法3種を検討した。また、分類結果として最終的にいくつのカテゴリを選択するかという問題には、正解と同数を選択する方法と閾値を用いて選択するカテゴリ数を推定する方法を実験した。学習用データの表現方法は、複数のカテゴリが付与されていた場合に、各カテゴリの学習用データとして用いる複製手法のF値が0.324であり、最も有効であった。カテゴリ数の決定には閾値を用いた方法のF値が0.303であり、正解と同数のカテゴリを選択した場合のF値0.324と比べて、ほぼ同じ性能が得られた。これらの結果は、分類性能の向上は必要だが、主題以外のカテゴリを用いた分類の可能性を示している。また、ネットの中立に関する議論に、より適した10カテゴリからなる新しいカテゴリセットを設定し、これらを用いて複数の人による分類を行い、その分類結果の一致率から、カテゴリセットの妥当性を評価した。
すべて 2010 2009
すべて 雑誌論文 (3件) (うち査読あり 2件) 学会発表 (4件)
Journal of Information Science Vol.35,No.4
ページ: 481-495
文化情報学:駿河台大学文化情報学部紀要 Vo1.16,No2
ページ: 53-68
Bulletin of IEEE Technical Committee on Digital Libraries Vol.5,No.3