研究概要 |
新聞記事に対して各新聞社では大規模なカテゴリを定義しており、日々発行される大量の記事を人手によりカテゴリ分類を行っている。これは、記事の二次利用等のコンテンツとして再利用する際に、情報検索やコンテンツ流通を効率的に行うために必要な作業である。しかし、人手によるカテゴリ分類作業は非常に大きな負担であり、その自動化が長年求められている。それにもかかわらず、新聞記事特有の分類方法等に起因して自動分類の精度はあまり向上しないような状況である。本研究では、新聞記事に対してデータマイニング技術を適用して導出したルールを、文書分類の因子として用いることで分類精度を向上させる手法の研究開発を行っており、従来の手法に対しての優位性を示すことができた。また、自動分類した分類結果を学習データとして用いて、自動分類を時系列に沿って行う時系列再帰学習を行うことにより、適合率を低下させることなく再現率を向上させることが可能であることも示すこともできた。これらは、山梨日日新聞社から提供を受けた8年間におよぶ実際の新聞記事に対して評価実験を行うことにより検証した。 一方,新聞記事をコンテンツとして扱う場合,コンテンツ配信にかかわる情報流通ネットワークの構築を考える必要があり,それをピアツーピアネットワークを用いて大規模かつ超分散環境における情報検索を行う手法を示した.ピアツーピアネットワーク上における有用なコンテンツを見つけ出すために,Web技術でスコアリングの基準として用いられる分類子や抽出子の概念を,ピアツーピアネットワーク情報検索に導入することにより,超分散環境下においても情報検索が可能とした.また,検索対象とする情報に概念階層を導入することにより,ネットワークのトラヒックを効果的に抑制できることも示した.さらに、多人数で情報を共有するサービスにおいて、P2Pネットワークの枠組みを利用して負荷分散を行う方法、ならびに、効率よくコンテンツを配置するためのアルゴリズムの開発研究を行った。さらに、他のユーザにデータ処理を依頼するP2Pモデルにおいて、依頼者にその中身を盗聴されずに処理が行える情報隠蔽上に関する手法の研究開発が行えた。
|