• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

情報抽出を目的とした定型パターンの自動構築に関する研究

Research Project

Project/Area Number 11780247
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionIbaraki University

Principal Investigator

新納 浩幸  茨城大学, 工学部, 講師 (10250987)

Project Period (FY) 1999 – 2000
Project Status Completed (Fiscal Year 2000)
Budget Amount *help
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2000: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1999: ¥1,300,000 (Direct Cost: ¥1,300,000)
Keywords情報抽出 / 固有表現抽出 / 定型パターン / 機械学習 / 決定リスト
Research Abstract

本研究の目的は、情報抽出で利用される定型パターンを自動構築する手法を提案することである。
情報抽出では、パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は、パターン作成のコストが高いため、パターンの自動構築技術が望まれている。自動構築するために、基本的には、機械学習の一種である「教師付き学習」を用いる。またブートストラップの手法も併用する。これによって多大な訓練データを用意する必要がなくなる。
パターンの自動構築には、まず、パターンの表現形式の設計が必要である。それによって学習手法が決まる。ここではWhiskの手法で用いられたパターンの記述形式を利用した。概略Perlのパターンマッチの構文を利用いている。ただしWhiskの対象は英語であるため、日本語用に拡張する必要があった。またそのパターンの表現形式では、固有表現抽出を予め実行しておく必要がある。そのために固有表現抽出システムを試作した。基本的にはChunkingに対する機械学習を用いた。ここでは学習器として決定リストを用いた。
次にパターンの自動構築を行うために、教師付き学習により、いくつかの代表的な規則を作った。ただしこれだけでは非常に抽出率が悪い。そこでこれをseedにしてブートストラップの手法を用いて、パターンを増やす戦略を試みた。ここではブートストラップの手法としてCo-trainingの手法が有望であると考え、それらの調査を行い、その適用を行った。
試作したシステムでは幾つかのパターンを自動構築できたが、抽出したパターンの有効性は未確認である。今後はその点も考慮しつつ、自動構築の手法を改良していく予定である。

Report

(2 results)
  • 2000 Annual Research Report
  • 1999 Annual Research Report
  • Research Products

    (12 results)

All Other

All Publications (12 results)

  • [Publications] 新納浩幸: "表記情報をデフォルトの証拠として用いた決定リストによる同音異義語の誤り検出"情報処理学会論文誌. 41-4. 1046-1053 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 新納浩幸: "最大エントロピー法と自然言語処理"AAMTジャーナル. 29. 7-14 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 新納浩幸: "日本語単語分割へのタグなしコーパスとタグ付きコーパスの利用"情報処理学会自然言語処理研究会. NL-140. 1-8 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 新納浩幸: "決定リストを弱学習器としたアダブーストによる日本語単語分割"自然言語処理. 8-2(掲載予定). (2001)

    • Related Report
      2000 Annual Research Report
  • [Publications] Hiroyuki Shinnou: "Deterministic Japanese Word Segmentation by Decision List Method"PRICAI-2000. 822-822 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] Hiroyuki Shinnou et al.: "Extraction of unknown words using the probability of accepting the kanji character sequence as one word"LREC-2000. 683-687 (2000)

    • Related Report
      2000 Annual Research Report
  • [Publications] 新納浩幸: "平仮名N-gramによる平仮名列の誤り検出とその修正"情報処理学会論文誌. 40.5. 2690-2698 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] 新納浩幸: "拡張文字ベースのHMMを利用した固有名詞抽出"IREXワークショップ論文集. 151-157 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] 池谷昌紀,新納浩幸: "文字列が単語となる確率を用いた未知語抽出"情報処理学会自然言語処理研究会. NL-135. 49-54 (2000)

    • Related Report
      1999 Annual Research Report
  • [Publications] 新納浩幸: "日本語形態素解析のクラス分類問題への変換とその解法"情報処理学会自然言語処理研究会. NL-135. 149-156 (2000)

    • Related Report
      1999 Annual Research Report
  • [Publications] Hiroyuki Shinnou: "Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence"EACL-99. 180-187 (1999)

    • Related Report
      1999 Annual Research Report
  • [Publications] Hiroyuki Shinnou et al.: "Correction of Word Segmentation Errors Through Character-based HMM"PACLING-99. 131-136 (1999)

    • Related Report
      1999 Annual Research Report

URL: 

Published: 1999-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi