大規模WEBデータの並列情報自動抽出とマネージメントに関する研究

Research Project

Project/Area Number	06F06366
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Single-year Grants
Section	外国
Research Field	Media informatics/Database
Research Institution	Tohoku University
Principal Investigator	堀口進 Tohoku University, 大学院・情報科学研究科, 教授
Co-Investigator(Kenkyū-buntansha)	PHAN H. Xuan 東北大学, 大学院・情報科学研究科, 外国人特別研究員 PHAN Xuan X. 東北大学, 大学院情報科学研究科, 外国人特別研究員
Project Period (FY)	2006 – 2007
Project Status	Completed (Fiscal Year 2007)
Budget Amount *help	¥2,300,000 (Direct Cost: ¥2,300,000) Fiscal Year 2007: ¥1,200,000 (Direct Cost: ¥1,200,000) Fiscal Year 2006: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	WEB情報抽出 / 最大エントロピー / 自動化情報抽出 / WEBデータ / 並列計算 / 大規模データ / データ抽出 / データマイニング / マルチメディアデータ / 最大エントロピーMaxEnt法 / マルコフモデル
Research Abstract	インターネット上の非構造的で膨大なマルチメディアデータから、正確なデータ抽出やマイニングを行うには、ネットワーク型マルチメディアデータからのWEB情報抽出、自動要約や分類の技術が必要とされている。我々は、最大エントロピーMaxEnt法に基づいたデータ領域の特定を行い、条件モデル法により分類を行う自動化情報抽出について検討し、その有効生を明らかにした。しかし、最大エントロピーMaxEnt法は条件により情報抽出が出来ない場合がある。そのため、多くのWEB上の概念的存在やエンティティや同じカタログに分類されるWEB環境上に実在するコンテキスト間の潜在的意味に注目し、テキスト解析を行った。その結果、潜在的意味法を用いれば最大エントロピーMaxEnt法で効率よく情報抽出ない場合にもきることを明らかにした。次に、WEBデータやHTMLデータからの情報抽出が可能なCRF(Conditional Random Filed)を、大規模データに適応した場合に問題となる膨大な処理時間について詳細に検討した。CRFを高速化するために並列計算学習法を考案し、大規模データ(CoNLL2000-L, CV test of WSJ)に対して並列学習を行った。その結果、約45台のプロセッサ数に対してスケーラブル処理速度向上が得られることを示した。特に、200回の繰り返しが必要なCoNLL2000-L(200)データに対して、90台のプロセッサで並列処理を行い、約80倍の処理性能を達成した。

Report

(2 results)

2007 Annual Research Report
2006 Annual Research Report

Research Products

(6 results)

All 2008 2007 2006

All Journal Article (6 results) (of which Peer Reviewed: 2 results)

[Journal Article] An Efficient Feature Selection using Hidden Topic in Text Categorization2008
- Author(s)
  Zhiwei Zhang, Xuan-Hieu Phan, and Susumu Horiguchi
- Journal Title
  
  The 2008 IEEE International Symposium on Mining and Web, Okinawa, Japan, March 2008. IEEE MAW
  
  Pages: 1223-1228
- Related Report
  2007 Annual Research Report
- Peer Reviewed
[Journal Article] Semantic Analysis of Entity Contexts towards Open Named Entity Classificationon the Web2007
- Author(s)
  Xuan-Hieu Phan, Le-Minh Nguyen, and Susumu Horiguchi
- Journal Title
  
  International Conference of the Pacific Association for Computational Linguistics PACLING2007
  
  Pages: 137-144
- Related Report
  2007 Annual Research Report
- Peer Reviewed
[Journal Article] High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data2007
- Author(s)
  Xuan-Hieu Phan, Le-Minh Nguyen, Yasushi Inoguchi, Susumu Horiguchi
- Journal Title
  
  IEICE Transactions on Information and Systems VOL.E90-D, NO.1
  
  Pages: 13-21
- Related Report
  2006 Annual Research Report
[Journal Article] A New Sentence Reduction Technique Based on a Decision Tree Model2007
- Author(s)
  Le-Minh Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Akira Shimazu
- Journal Title
  
  International Journal on Artificial Intelligence Tools (IJAIT) Vol.16, No.1
  
  Pages: 129-138
- Related Report
  2006 Annual Research Report
[Journal Article] Improving Discriminative Sequential Learning by Discovering Important Associations of Statistics2006
- Author(s)
  Xuan-Hieu Phan, Le-Minh Nguyen, Yasushi Inoguchi, Tu-Bao Ho, Susumu Horiguchi
- Journal Title
  
  ACM Transactions on Asian Language and Information Processing (ACM TALIP) Vol.5, No.4
  
  Pages: 1-27
- Related Report
  2006 Annual Research Report
[Journal Article] Personal Name Resolution Crossover Documents by A Semantics-Based Approach2006
- Author(s)
  Xuan-Hieu Phan, Le-Minh Nguyen, Susumu Horiguchi
- Journal Title
  
  IEICE Transactions on Information and Systems Vol.E89-D, No.2
  
  Pages: 825-836
- Related Report
  2006 Annual Research Report

大規模WEBデータの並列情報自動抽出とマネージメントに関する研究

Principal Investigator

堀口 進 Tohoku University, 大学院・情報科学研究科, 教授

¥2,300,000 (Direct Cost: ¥2,300,000)

Report

Research Products

[Journal Article] An Efficient Feature Selection using Hidden Topic in Text Categorization2008

Author(s)

Journal Title

Related Report

[Journal Article] Semantic Analysis of Entity Contexts towards Open Named Entity Classificationon the Web2007

Author(s)

Journal Title

Related Report

[Journal Article] High-Performance Training Conditional Random Fields for Large-Scale Applications of Labeling Sequence Data2007

Author(s)

Journal Title

Related Report

[Journal Article] A New Sentence Reduction Technique Based on a Decision Tree Model2007

Author(s)

Journal Title

Related Report

[Journal Article] Improving Discriminative Sequential Learning by Discovering Important Associations of Statistics2006

Author(s)

Journal Title

Related Report

[Journal Article] Personal Name Resolution Crossover Documents by A Semantics-Based Approach2006

Author(s)

Journal Title

Related Report

堀口進 Tohoku University, 大学院・情報科学研究科, 教授