1999 Fiscal Year Annual Research Report
情報抽出を目的とした定型パターンの自動構築に関する研究
Project/Area Number |
11780247
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 講師 (10250987)
|
Keywords | 情報抽出 / 固有表現抽出 / 定型パターン / 機械学習 / 決定リスト |
Research Abstract |
本研究の目的は,情報抽出で利用される定型パターンを自動構築する手法を提案することである。 情報抽出では,パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は,パターン作成のコストが高いため,パターンの自動構築技術が望まれている。自動構築するために機械学習の一種である「教師付学習」を用いる。「教師付学習」では,学習手法の選択の他に,学習パターンの表現形式の設計と,学習データの収集が必要である。また情報抽出に対しては,対象文書をどのようなものに設定するかが,利用する手法に影響する。 本年度は「教師付学習」の手法の選定と訓練データの作成を行った。対象文書は新聞記事データを想定した。まず,教師付学習では,HMM,決定リストおよび最大エントロピー法の調査を行い,それらの手法の特徴を把握するために,それらの手法を応用したアプリケーションを作成した。またパターンを学習するためには,文書を浅く構文解析する必要がある。また固有表現に対しては,タグをつけておく必要もある。構文解析については既存の機械学習手法によりすでに作成されている。本研究では新たに固有表現抽出のプログラムをHMMの手法を応用して作成した。また固有表現は未知語としてあらわれやすいので,未知語を検出する手法も提案した。 これらの研究によって,パターン学習のための学習手法と訓練データを得るプログラムはほぼ用意できた。次年度に,それらを用いたパターンの学習を試みる。
|
Research Products
(6 results)
-
[Publications] 新納浩幸: "平仮名N-gramによる平仮名列の誤り検出とその修正"情報処理学会論文誌. 40.5. 2690-2698 (1999)
-
[Publications] 新納浩幸: "拡張文字ベースのHMMを利用した固有名詞抽出"IREXワークショップ論文集. 151-157 (1999)
-
[Publications] 池谷昌紀,新納浩幸: "文字列が単語となる確率を用いた未知語抽出"情報処理学会自然言語処理研究会. NL-135. 49-54 (2000)
-
[Publications] 新納浩幸: "日本語形態素解析のクラス分類問題への変換とその解法"情報処理学会自然言語処理研究会. NL-135. 149-156 (2000)
-
[Publications] Hiroyuki Shinnou: "Detection of Japanese Homophone Errors by a Decision List Including a Written Word as a Default Evidence"EACL-99. 180-187 (1999)
-
[Publications] Hiroyuki Shinnou et al.: "Correction of Word Segmentation Errors Through Character-based HMM"PACLING-99. 131-136 (1999)