Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2006: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2005: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Research Abstract |
近年,Webの発展などにより豊富な情報を収集することが可能になった一方で,それらを人間の知識として活用する知識処理技術の重要性が改めて認識されている.人間の知識の多くは平文テキスト,あるいはHTMLやXMLといった半構造テキストで記述されており,そのようなテキストから予め指定された必要な情報を抜き出す技術を情報抽出技術と呼ぶ.情報抽出をオントロジーや知識ベースの(半)自動合成のための基礎技術と捉えることができる.サブタスクである固有表現抽出を含めると,情報抽出には規則学習に基づくアプローチ,確率モデルに基づくアプローチなどがあるが,本研究では規則学習に基づくアプローチと確率モデルに基づくアプローチ両者の融合を行う情報抽出システムの構築を目指した. 本研究ではまず,そのようなシステムの基盤として論理式に基づく規則表現を許し,統計的学習ルーチンを備えた確率論理プログラミング言語処理系であるPRISM (programming in statistical modeling)を整備した.標準的ベンチマークセットであるカーネギーメロン大学のセミナー案内データ(CMU seminar)は単語数3,000を越える文章も含むが,この整備により比較的入手が容易な計算機での大量な処理も可能になった.一方,頻出パターン抽出技法を利用した,規則に基づく情報抽出器として知られる(LP)^2をJava言語で実装し,(LP)^2によって得られた規則を内包した確率モデルをPRISMで記述した.しかし,CRF (conditional random field)やサポートベクターマシンなどの情報抽出研究で行われている最新のベンチマーク結果に比較すると抽出精度は劣っており,現在の確率モデルのベースである動的ベイジアンネットワーク(dynamic Bayesian network)からCRFへ移行するなどの必要性があると考えられる.
|