情報抽出を目的とした定型パターンの自動構築に関する研究
Project/Area Number |
11780247
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 講師 (10250987)
|
Project Period (FY) |
1999 – 2000
|
Project Status |
Completed (Fiscal Year 2000)
|
Budget Amount *help |
¥2,100,000 (Direct Cost: ¥2,100,000)
Fiscal Year 2000: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1999: ¥1,300,000 (Direct Cost: ¥1,300,000)
|
Keywords | 情報抽出 / 固有表現抽出 / 定型パターン / 機械学習 / 決定リスト |
Research Abstract |
本研究の目的は、情報抽出で利用される定型パターンを自動構築する手法を提案することである。 情報抽出では、パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は、パターン作成のコストが高いため、パターンの自動構築技術が望まれている。自動構築するために、基本的には、機械学習の一種である「教師付き学習」を用いる。またブートストラップの手法も併用する。これによって多大な訓練データを用意する必要がなくなる。 パターンの自動構築には、まず、パターンの表現形式の設計が必要である。それによって学習手法が決まる。ここではWhiskの手法で用いられたパターンの記述形式を利用した。概略Perlのパターンマッチの構文を利用いている。ただしWhiskの対象は英語であるため、日本語用に拡張する必要があった。またそのパターンの表現形式では、固有表現抽出を予め実行しておく必要がある。そのために固有表現抽出システムを試作した。基本的にはChunkingに対する機械学習を用いた。ここでは学習器として決定リストを用いた。 次にパターンの自動構築を行うために、教師付き学習により、いくつかの代表的な規則を作った。ただしこれだけでは非常に抽出率が悪い。そこでこれをseedにしてブートストラップの手法を用いて、パターンを増やす戦略を試みた。ここではブートストラップの手法としてCo-trainingの手法が有望であると考え、それらの調査を行い、その適用を行った。 試作したシステムでは幾つかのパターンを自動構築できたが、抽出したパターンの有効性は未確認である。今後はその点も考慮しつつ、自動構築の手法を改良していく予定である。
|
Report
(2 results)
Research Products
(12 results)