• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 実績報告書

規則と確率モデルの融合に基づく情報抽出技法に関する研究

研究課題

研究課題/領域番号 17700140
研究機関東京工業大学

研究代表者

亀谷 由隆  東京工業大学, 大学院情報理工学研究科, 助手 (60361789)

キーワード情報抽出 / 確率モデル / 規則学習
研究概要

近年,Webの発展などにより豊富な情報を収集することが可能になった一方で,それらを人間の知識として活用する知識処理技術の重要性が改めて認識されている.人間の知識の多くは平文テキスト,あるいはHTMLやXMLといった半構造テキストで記述されており,そのようなテキストから予め指定された必要な情報を抜き出す技術を情報抽出技術と呼ぶ.情報抽出をオントロジーや知識ベースの(半)自動合成のための基礎技術と捉えることができる.サブタスクである固有表現抽出を含めると,情報抽出には規則学習に基づくアプローチ,確率モデルに基づくアプローチなどがあるが,本研究では規則学習に基づくアプローチと確率モデルに基づくアプローチ両者の融合を行う情報抽出システムの構築を目指した.
本研究ではまず,そのようなシステムの基盤として論理式に基づく規則表現を許し,統計的学習ルーチンを備えた確率論理プログラミング言語処理系であるPRISM (programming in statistical modeling)を整備した.標準的ベンチマークセットであるカーネギーメロン大学のセミナー案内データ(CMU seminar)は単語数3,000を越える文章も含むが,この整備により比較的入手が容易な計算機での大量な処理も可能になった.一方,頻出パターン抽出技法を利用した,規則に基づく情報抽出器として知られる(LP)^2をJava言語で実装し,(LP)^2によって得られた規則を内包した確率モデルをPRISMで記述した.しかし,CRF (conditional random field)やサポートベクターマシンなどの情報抽出研究で行われている最新のベンチマーク結果に比較すると抽出精度は劣っており,現在の確率モデルのベースである動的ベイジアンネットワーク(dynamic Bayesian network)からCRFへ移行するなどの必要性があると考えられる.

  • 研究成果

    (3件)

すべて 2007 2006

すべて 雑誌論文 (3件)

  • [雑誌論文] Discovering Concepts from Word Co-occurrences with a Relational Model2007

    • 著者名/発表者名
      Kurihara, K., Kameya, Y., Sato, T.
    • 雑誌名

      Transactions of the Japanese Society for Artificial Intelligence 22・2

      ページ: 218-226

  • [雑誌論文] 頻出部分木発見手法を用いた遺伝的プログラミングの交通信号制御問題への適用2007

    • 著者名/発表者名
      熊谷潤一, 小島康夫, 高重聡一, 亀谷由隆, 佐藤泰介
    • 雑誌名

      人工知能学会論文誌 22・2

      ページ: 127-139

  • [雑誌論文] Parallel EM Learning for Symbolic-Statistical Models2006

    • 著者名/発表者名
      Izumi, Y., Kameya, Y., Sato, T.
    • 雑誌名

      Proceedings of the International Workshop on Data-Mining and Statistical Science

      ページ: 133-140

URL: 

公開日: 2008-05-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi