平成20年度は大規模文書集合におけるトピック抽出方法とそれらを用いた索引語選別手法の開発と検討を行った。まず、トピックの抽出手法では、大規模な文書集合を分割し、それぞれの部分集合から得られた似通ったトピックの統合を行った。また、新聞記事を用いた評価実験を実施した結果、ある一定の精度でのトピック抽出を効率的に実施できた。さらにトピックを用いた新たな索引語選別手法では、取得したトピックにおける重要語(キーワード)に対して、それらと共起する単語に着目することで、文書集合中において数が少ない文書に含まれるトピックの索引語も抽出することができた。この手法では、従来、頻度情報等では漏れてしまっていたキーワードについても選別できた。文書集合を表現するという用途においては、それらの単語もまた重要であると考えられる。さらに、上記結果について、学会発表等で研究成果の公表を実施した。 本研究で扱っているトピックに着目することは、従来の単語に基づいた文書処理に対して、単語だけでは表現できなかった潜在的な特徴量に着目することができる。その結果、従来手法では漏れてしまっていた重要と思われる情報にも重みを付けることができると考えられる。また、上記手法により、今後、インターネットを初めとしたネットワーク上に存在する膨大な文書情報やその他、さまざまな文書情報の整理などにトピックを用いることができるようになると考えられる。
|