大規模WEBデータの並列情報自動抽出とマネージメントに関する研究

研究課題

研究課題/領域番号	06F06366
研究種目	特別研究員奨励費
配分区分	補助金
応募区分	外国
研究分野	メディア情報学・データベース
研究機関	東北大学
研究代表者	堀口進東北大学, 大学院・情報科学研究科, 教授
研究分担者	PHAN H. Xuan 東北大学, 大学院・情報科学研究科, 外国人特別研究員 PHAN Xuan X. 東北大学, 大学院情報科学研究科, 外国人特別研究員
研究期間 (年度)	2006 – 2007
研究課題ステータス	完了 (2007年度)
配分額 *注記	2,300千円 (直接経費: 2,300千円) 2007年度: 1,200千円 (直接経費: 1,200千円) 2006年度: 1,100千円 (直接経費: 1,100千円)
キーワード	WEB情報抽出 / 最大エントロピー / 自動化情報抽出 / WEBデータ / 並列計算 / 大規模データ / データ抽出 / データマイニング / マルチメディアデータ / 最大エントロピーMaxEnt法 / マルコフモデル
研究概要	インターネット上の非構造的で膨大なマルチメディアデータから、正確なデータ抽出やマイニングを行うには、ネットワーク型マルチメディアデータからのWEB情報抽出、自動要約や分類の技術が必要とされている。我々は、最大エントロピーMaxEnt法に基づいたデータ領域の特定を行い、条件モデル法により分類を行う自動化情報抽出について検討し、その有効生を明らかにした。しかし、最大エントロピーMaxEnt法は条件により情報抽出が出来ない場合がある。そのため、多くのWEB上の概念的存在やエンティティや同じカタログに分類されるWEB環境上に実在するコンテキスト間の潜在的意味に注目し、テキスト解析を行った。その結果、潜在的意味法を用いれば最大エントロピーMaxEnt法で効率よく情報抽出ない場合にもきることを明らかにした。次に、WEBデータやHTMLデータからの情報抽出が可能なCRF(Conditional Random Filed)を、大規模データに適応した場合に問題となる膨大な処理時間について詳細に検討した。CRFを高速化するために並列計算学習法を考案し、大規模データ(CoNLL2000-L, CV test of WSJ)に対して並列学習を行った。その結果、約45台のプロセッサ数に対してスケーラブル処理速度向上が得られることを示した。特に、200回の繰り返しが必要なCoNLL2000-L(200)データに対して、90台のプロセッサで並列処理を行い、約80倍の処理性能を達成した。

報告書

(2件)

2007 実績報告書
2006 実績報告書

研究成果

(6件)

すべて 2008 2007 2006

すべて雑誌論文 (6件) (うち査読あり 2件)

[雑誌論文] An Efficient Feature Selection using Hidden Topic in Text Categorization2008
- 著者名/発表者名
  Zhiwei Zhang, Xuan-Hieu Phan, and Susumu Horiguchi
- 雑誌名
  
  The 2008 IEEE International Symposium on Mining and Web, Okinawa, Japan, March 2008. IEEE MAW
  
  ページ: 1223-1228
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] Semantic Analysis of Entity Contexts towards Open Named Entity Classificationon the Web2007
- 著者名/発表者名
  Xuan-Hieu Phan, Le-Minh Nguyen, and Susumu Horiguchi
- 雑誌名
  
  International Conference of the Pacific Association for Computational Linguistics PACLING2007
  
  ページ: 137-144
- 関連する報告書
  2007 実績報告書
- 査読あり
[雑誌論文] High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data2007
- 著者名/発表者名
  Xuan-Hieu Phan, Le-Minh Nguyen, Yasushi Inoguchi, Susumu Horiguchi
- 雑誌名
  
  IEICE Transactions on Information and Systems VOL.E90-D, NO.1
  
  ページ: 13-21
- 関連する報告書
  2006 実績報告書
[雑誌論文] A New Sentence Reduction Technique Based on a Decision Tree Model2007
- 著者名/発表者名
  Le-Minh Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Akira Shimazu
- 雑誌名
  
  International Journal on Artificial Intelligence Tools (IJAIT) Vol.16, No.1
  
  ページ: 129-138
- 関連する報告書
  2006 実績報告書
[雑誌論文] Improving Discriminative Sequential Learning by Discovering Important Associations of Statistics2006
- 著者名/発表者名
  Xuan-Hieu Phan, Le-Minh Nguyen, Yasushi Inoguchi, Tu-Bao Ho, Susumu Horiguchi
- 雑誌名
  
  ACM Transactions on Asian Language and Information Processing (ACM TALIP) Vol.5, No.4
  
  ページ: 1-27
- 関連する報告書
  2006 実績報告書
[雑誌論文] Personal Name Resolution Crossover Documents by A Semantics-Based Approach2006
- 著者名/発表者名
  Xuan-Hieu Phan, Le-Minh Nguyen, Susumu Horiguchi
- 雑誌名
  
  IEICE Transactions on Information and Systems Vol.E89-D, No.2
  
  ページ: 825-836
- 関連する報告書
  2006 実績報告書

大規模WEBデータの並列情報自動抽出とマネージメントに関する研究

研究代表者

堀口 進 東北大学, 大学院・情報科学研究科, 教授

2,300千円 (直接経費: 2,300千円)

報告書

研究成果

[雑誌論文] An Efficient Feature Selection using Hidden Topic in Text Categorization2008

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Semantic Analysis of Entity Contexts towards Open Named Entity Classificationon the Web2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A New Sentence Reduction Technique Based on a Decision Tree Model2007

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Improving Discriminative Sequential Learning by Discovering Important Associations of Statistics2006

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Personal Name Resolution Crossover Documents by A Semantics-Based Approach2006

著者名/発表者名

雑誌名

関連する報告書

堀口進東北大学, 大学院・情報科学研究科, 教授