2003 Fiscal Year Annual Research Report
データマイニング技術を基盤とした新聞記事自動分類および検索支援に関する研究
Project/Area Number |
15500065
|
Research Institution | Kyoto University |
Principal Investigator |
川原 稔 京都大学, 学術情報メディアセンター, 助手 (50224829)
|
Keywords | 新聞記事分類 / 文書分類 / コンテンツ / 機械学習 / 再帰学習 / データマイニング / Webマイニング / ピアツーピアネットワーク |
Research Abstract |
新聞記事に対して,各新聞社では大規模なカテゴリを定義しており,さらに分類の大きさにより階層を成している.一般的に知られているように,カテゴリによっては分類精度を著しく悪化させるものがあるため,カテゴリおよびカテゴリ階層と文書分類手法との分類精度の関係の調査研究を行った.それにより,カテゴリ階層を用いて動的に自動分類を行うことで,分類精度を向上させることが可能であることを示した.また,自動分類した分類結果を学習データとして用いて,自動分類を時系列に沿って行う時系列再帰学習を行うことにより,適合率を低下させることなく再現率を向上させることが可能であることも示すことができた.これらは,山梨日日新聞社から提供を受けた8年間におよぶ実際の新聞記事に対して評価実験を行うことにより検証を行った. 一方,新聞記事をコンテンツとして扱う場合,コンテンツ配信にかかわる情報流通ネットワークの構築を考える必要があり,それをピアツーピアネットワークを用いて大規模かつ超分散環境における情報検索を行う手法を示した.ピアツーピアネットワーク上における有用なコンテンツを見つけ出すために,Web技術でスコアリングの基準として用いられる分類子や抽出子の概念を,ピアツーピアネットワーク情報検索に導入することにより,超分散環境下においても情報検索が可能とした.また,検索対象とする情報に概念階層を導入することにより,ネットワークのトラヒックを効果的に抑制できることも示した.
|
Research Products
(4 results)
-
[Publications] 中辻真, 川原稔, 河野浩之: "トピック主導型P2P情報検索システムの提案と性能評価"電子情報通信学会論文誌D-I. J87-D-1・2. 126-136 (2004)
-
[Publications] 中辻真, 岸浩史, 河野浩之, 川原稔: "ピアツーピアネットワークにおけるトピック主導型問合せルーチングアルゴリズムの提案"日本データベース学会Letters. 2・3. 13-16 (2003)
-
[Publications] 河瀬基公子, 川原稔, 河野浩之: "データマイニングに基づいた文書分類手法の提案"データベースとWeb情報システムに関するシンポジウム(DBWeb2003). 203-210 (2003)
-
[Publications] Kikuko Kawase, Minoru Kawahara, Takeshi Iwashita, Hiroyuki Kawano, Masanori Kanazawa: "Parallel Vector Computing Technique for the Very Large Scale Web Graph"Proceedings of 5^<th> International Conference on Data Warehousing and Knowledge Discovery. 151-160 (2003)