• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

1999 年度 実績報告書

情報抽出を目的とした定型パターンの自動構築に関する研究

研究課題

研究課題/領域番号 11780247
研究機関茨城大学

研究代表者

新納 浩幸  茨城大学, 工学部, 講師 (10250987)

キーワード情報抽出 / 固有表現抽出 / 定型パターン / 機械学習 / 決定リスト
研究概要

本研究の目的は,情報抽出で利用される定型パターンを自動構築する手法を提案することである。
情報抽出では,パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は,パターン作成のコストが高いため,パターンの自動構築技術が望まれている。自動構築するために機械学習の一種である「教師付学習」を用いる。「教師付学習」では,学習手法の選択の他に,学習パターンの表現形式の設計と,学習データの収集が必要である。また情報抽出に対しては,対象文書をどのようなものに設定するかが,利用する手法に影響する。
本年度は「教師付学習」の手法の選定と訓練データの作成を行った。対象文書は新聞記事データを想定した。まず,教師付学習では,HMM,決定リストおよび最大エントロピー法の調査を行い,それらの手法の特徴を把握するために,それらの手法を応用したアプリケーションを作成した。またパターンを学習するためには,文書を浅く構文解析する必要がある。また固有表現に対しては,タグをつけておく必要もある。構文解析については既存の機械学習手法によりすでに作成されている。本研究では新たに固有表現抽出のプログラムをHMMの手法を応用して作成した。また固有表現は未知語としてあらわれやすいので,未知語を検出する手法も提案した。
これらの研究によって,パターン学習のための学習手法と訓練データを得るプログラムはほぼ用意できた。次年度に,それらを用いたパターンの学習を試みる。

  • 研究成果

    (6件)

すべて その他

すべて 文献書誌 (6件)

  • [文献書誌] 新納浩幸: "平仮名N-gramによる平仮名列の誤り検出とその修正"情報処理学会論文誌. 40.5. 2690-2698 (1999)

  • [文献書誌] 新納浩幸: "拡張文字ベースのHMMを利用した固有名詞抽出"IREXワークショップ論文集. 151-157 (1999)

  • [文献書誌] 池谷昌紀,新納浩幸: "文字列が単語となる確率を用いた未知語抽出"情報処理学会自然言語処理研究会. NL-135. 49-54 (2000)

  • [文献書誌] 新納浩幸: "日本語形態素解析のクラス分類問題への変換とその解法"情報処理学会自然言語処理研究会. NL-135. 149-156 (2000)

  • [文献書誌] Hiroyuki Shinnou: "Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence"EACL-99. 180-187 (1999)

  • [文献書誌] Hiroyuki Shinnou et al.: "Correction of Word Segmentation Errors Through Character-based HMM"PACLING-99. 131-136 (1999)

URL: 

公開日: 2001-10-23   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi