研究概要 |
自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法により解決するというアプローチが大きな成功をおさめている.しかしそこには帰納学習で必要とされる訓練データを構築するコストが高いという問題がある.自然言語処理ではこの訓練データとはタグ付きコーパスに対応する.本研究の目的は,この問題に対処対処するために,タグなしコーパスを利用することである. 本研究は教師なし学習の一種である.教師なし学習は近年複数観点を利用した手法が主流である.特にBlumらによるCo-trainingとNigamらによるEMアルゴリズムを利用した手法が主流である.これらの手法はともに文書分類を対象に提案されているので,自然言語処理の中心課題である語義判別に応用できるかどうかはあきらかではない. 本年度は,この2つの手法を調査し,語義判別問題に利用することを検討し,幾つかの実験を行い,その成果を発表した. まずCo-trainingについての調査を行った.Co-trainingはブースティングと密接な関係があることから,ブースティングの実装システムを作り,Co-trainingの実装システムの足掛かりとした.次にCo-trainingを語義判別問題へ直接適用したシステムを作成し,語義判別のコンテスト形式の国際会議SENSEVAL-2に参加した.結果はまずまずであったが,幾つかの問題も見つかった.それは,独立な素性を設定することが難しいことと,それが共起性に起因することであった.そのために事例の追加の際に共起性のチェックを行う手法をを提案し発表した. 次にEMアルゴリズムはその実装システムを作成し,SENSEVAL-2の課題問題で評価した.この成果は3月の言語処理学会年次大会で発表予定である.
|