規則と確率モデルの融合に基づく情報抽出技法に関する研究

Research Project

Project/Area Number	17700140
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	Tokyo Institute of Technology
Principal Investigator	亀谷由隆東京工業大学, 大学院情報理工学研究科, 助手 (60361789)
Project Period (FY)	2005 – 2006
Project Status	Completed (Fiscal Year 2006)
Budget Amount *help	¥2,100,000 (Direct Cost: ¥2,100,000) Fiscal Year 2006: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2005: ¥1,100,000 (Direct Cost: ¥1,100,000)
Keywords	情報抽出 / 確率モデル / 規則学習
Research Abstract	近年,Webの発展などにより豊富な情報を収集することが可能になった一方で,それらを人間の知識として活用する知識処理技術の重要性が改めて認識されている.人間の知識の多くは平文テキスト,あるいはHTMLやXMLといった半構造テキストで記述されており,そのようなテキストから予め指定された必要な情報を抜き出す技術を情報抽出技術と呼ぶ.情報抽出をオントロジーや知識ベースの(半)自動合成のための基礎技術と捉えることができる.サブタスクである固有表現抽出を含めると,情報抽出には規則学習に基づくアプローチ,確率モデルに基づくアプローチなどがあるが,本研究では規則学習に基づくアプローチと確率モデルに基づくアプローチ両者の融合を行う情報抽出システムの構築を目指した. 本研究ではまず,そのようなシステムの基盤として論理式に基づく規則表現を許し,統計的学習ルーチンを備えた確率論理プログラミング言語処理系であるPRISM (programming in statistical modeling)を整備した.標準的ベンチマークセットであるカーネギーメロン大学のセミナー案内データ(CMU seminar)は単語数3,000を越える文章も含むが,この整備により比較的入手が容易な計算機での大量な処理も可能になった.一方,頻出パターン抽出技法を利用した,規則に基づく情報抽出器として知られる(LP)^2をJava言語で実装し,(LP)^2によって得られた規則を内包した確率モデルをPRISMで記述した.しかし,CRF (conditional random field)やサポートベクターマシンなどの情報抽出研究で行われている最新のベンチマーク結果に比較すると抽出精度は劣っており,現在の確率モデルのベースである動的ベイジアンネットワーク(dynamic Bayesian network)からCRFへ移行するなどの必要性があると考えられる.

Report

(2 results)

2006 Annual Research Report
2005 Annual Research Report

Research Products
(6 results)

All 2007 2006 2005

All Journal Article (6 results)

[Journal Article] Discovering Concepts from Word Co-occurrences with a Relational Model2007
- Author(s)
  Kurihara, K., Kameya, Y., Sato, T.
- Journal Title
  
  Transactions of the Japanese Society for Artificial Intelligence 22・2
  
  Pages: 218-226
- NAID
  130000058333
- Related Report
  2006 Annual Research Report
[Journal Article] 頻出部分木発見手法を用いた遺伝的プログラミングの交通信号制御問題への適用2007
- Author(s)
  熊谷潤一, 小島康夫, 高重聡一, 亀谷由隆, 佐藤泰介
- Journal Title
  
  人工知能学会論文誌 22・2
  
  Pages: 127-139
- NAID
  10022007221
- Related Report
  2006 Annual Research Report
[Journal Article] Parallel EM Learning for Symbolic-Statistical Models2006
- Author(s)
  Izumi, Y., Kameya, Y., Sato, T.
- Journal Title
  
  Proceedings of the International Workshop on Data-Mining and Statistical Science
  
  Pages: 133-140
- Related Report
  2006 Annual Research Report
[Journal Article] Learning through failure2006
- Author(s)
  Sato, T., Kameya, Y
- Journal Title
  
  Dagstuhl Seminar Proceedings on Probabilistic, Logical and Relational Learning - Towards a Synthesis (web掲載)
- Related Report
  2005 Annual Research Report
[Journal Article] Negation elimination for finite PCFGs2005
- Author(s)
  Sato, T., Kameya, Y
- Journal Title
  
  Logic-based Program Synthesis and Transformation
  
  Pages: 117-132
- Related Report
  2005 Annual Research Report
[Journal Article] Generative modeling with failure in PRISM2005
- Author(s)
  Sato, T., Kameya, Y., Zhou, N.-F.
- Journal Title
  
  Proceedings of the 19th International Joint Conference on Artificial Intelligence
  
  Pages: 847-852
- Related Report
  2005 Annual Research Report

規則と確率モデルの融合に基づく情報抽出技法に関する研究

Principal Investigator

亀谷 由隆 東京工業大学, 大学院情報理工学研究科, 助手 (60361789)

¥2,100,000 (Direct Cost: ¥2,100,000)

Report

Research Products

[Journal Article] Discovering Concepts from Word Co-occurrences with a Relational Model2007

Author(s)

Journal Title

NAID

Related Report

[Journal Article] 頻出部分木発見手法を用いた遺伝的プログラミングの交通信号制御問題への適用2007

Author(s)

Journal Title

NAID

Related Report

[Journal Article] Parallel EM Learning for Symbolic-Statistical Models2006

Author(s)

Journal Title

Related Report

[Journal Article] Learning through failure2006

Author(s)

Journal Title

Related Report

[Journal Article] Negation elimination for finite PCFGs2005

Author(s)

Journal Title

Related Report

[Journal Article] Generative modeling with failure in PRISM2005

Author(s)

Journal Title

Related Report

亀谷由隆東京工業大学, 大学院情報理工学研究科, 助手 (60361789)