新聞記事に対して各新聞社では大規模なカテゴリを定義しており、日々発行される大量の記事を人手によりカテゴリ分類を行っている。これは、記事の二次利用等のコンテンツとして再利用する際に、情報検索やコンテンツ流通を効率的に行うために必要な作業である。しかし、人手によるカテゴリ分類作業は非常に大きな負担であり、その自動化が長年求められている。それにもかかわらず、新聞記事特有の分類方法等に起因して自動分類の精度はあまり向上しないような状況である。本研究では、新聞記事に対してデータマイニング技術を適用して導出したルールを、文書分類の因子として用いることで分類精度を向上させる手法の研究開発を行っており、従来の手法に対しての優位性を示すことができた。また、自動分類した分類結果を学習データとして用いて、自動分類を時系列に沿って行う時系列再帰学習を行うことにより、適合率を低下させることなく再現率を向上させることが可能であることも示すこともできた。これらは、山梨日日新聞社から提供を受けた8年間におよぶ実際の新聞記事に対して評価実験を行うことにより検証した。 一方、新聞記事をコンテンツとして扱う場合、コンテンツ配信にかかわる情報流通ネットワークの構築を考える必要があり、それをピアツーピアネットワーク上で大規模かつ超分散環境における情報検索を効率よく行うためのアルゴリズム研究も進めている。今年度は、各コンテンツの分類結果を基にしたネットワークの構成法に関する研究を中心に行った。
|