2005 Fiscal Year Annual Research Report
規則と確率モデルの融合に基づく情報抽出技法に関する研究
Project/Area Number |
17700140
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
亀谷 由隆 東京工業大学, 大学院・情報理工学研究科, 助手 (60361789)
|
Keywords | 情報抽出 / 確率モデル / 規則学習 |
Research Abstract |
本年度は,規則と確率を統合した情報抽出に必要な要素技術の準備を行った. まず,情報抽出(information extraction)の標準ベンチマークセットの一つであるカーネギーメロン大学のセミナー案内データ(CMU seminar)に対して,動的ベイジアンネットワーク(dynamic Bayesian network)に基づく既存の情報抽出器であるBIEN (Bayesian Information Extraction Network)を適用した再実験を行った.そして,規則と確率を融合した情報抽出器のひとつの形としてBIENに制約的ノードを付与したモデルを考案し,ベイジアンネットワークの標準的ライブラリの一つであるPNL (probabilistic network library)上に実装した.この制約的ノードは規則を決定的な条件付確率表(conditional probability table)としてコンパイルし,制約に違反する予測タグについては確率スコアを与えないというものである.この拡張したBIENをCMU seminarデータに適用し,予測精度が向上することを確認した.現在はこの考案モデルに対して評価実験を行っている. また,情報抽出規則をコーパスから自動的に抽出するため,規則に基づく情報抽出器として知られる(LP)^2を実装し,上記のCMU seminarデータに適用を行った.一般的な設定では再現率は低いものの,高い精度を得られることを確認した. 規則と確率を統合する情報抽出モデルの基盤の一つとして確率論理プログラミング処理系PRISMを考えているが,このPRISMに対し,64bit版の実装,PrologコードからC言語ネイティブへの一部再実装,アンダーフローへの対処など,CMU seminarなどの実データに耐えられるような頑健化を図った.PRISM上にBIENを実装し,CMU seminarデータに対し,現実的な計算資源(時間および空間)で学習および予測ができることを確認した.
|