研究概要 |
本研究の目的は,情報抽出で利用される定型パターンを自動構築する手法を提案することである。 情報抽出では,パターンマッチングの処理によって情報を抽出する手法が有効である。ただしこの手法は,パターン作成のコストが高いため,パターンの自動構築技術が望まれている。自動構築するために機械学習の一種である「教師付学習」を用いる。「教師付学習」では,学習手法の選択の他に,学習パターンの表現形式の設計と,学習データの収集が必要である。また情報抽出に対しては,対象文書をどのようなものに設定するかが,利用する手法に影響する。 本年度は「教師付学習」の手法の選定と訓練データの作成を行った。対象文書は新聞記事データを想定した。まず,教師付学習では,HMM,決定リストおよび最大エントロピー法の調査を行い,それらの手法の特徴を把握するために,それらの手法を応用したアプリケーションを作成した。またパターンを学習するためには,文書を浅く構文解析する必要がある。また固有表現に対しては,タグをつけておく必要もある。構文解析については既存の機械学習手法によりすでに作成されている。本研究では新たに固有表現抽出のプログラムをHMMの手法を応用して作成した。また固有表現は未知語としてあらわれやすいので,未知語を検出する手法も提案した。 これらの研究によって,パターン学習のための学習手法と訓練データを得るプログラムはほぼ用意できた。次年度に,それらを用いたパターンの学習を試みる。
|