研究概要 |
自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法により解決するというアプローチが大きな成功をおさめている.しかしそこには帰納学習で必要とされる訓練データを構築するコストが高いという問題がある.自然言語処理での訓練データとはタグ付きコーパスに対応する.本研究の目的は,この問題に対処するために,タグなしコーパスを併用することである. 本研究は教師なし学習の一種である.教師なし学習は近年複数観点を利用した手法が主流である.特にBlumらによるCo-trainingとNigamらによるEMアルゴリズムを利用した手法が主流である.これらの手法はともに文書分類を対象に提案されているので,自然言語処理の中心課題である語義判別問題に応用できるかどうかは明らかではない. 昨年度は主にCo-trainingの手法を検討した.特にCo-trainingを適用する際にネックとなる素性の独立性を緩和する手法を提案した.本年度,この成果を国際会議で発表した. また本年度は,EMアルゴリズムの手法に焦点を当てた.日本語SENSEVAL2の辞書タスクを用いて,提案手法の評価を行った.まずNigamらの手法を語義判別問題に応用できることを実装して示した.この結果は論文誌に採録された.そして,その際に単純に精度が向上しない問題もあることを示した.その解決手法として交差検定とアドホックな規則を用いる手法を提案した.提案した手法を用いることで,現在公になっている辞書タスクの最高正解率を実現することができた.この成果は研究会で発表し,国際会議での採録も決定した.日本語論文誌へも投稿し,現在査読中である. またEMアルゴリズムとクラスタリングの関係を調査し,ファジィクラスタリングからの教師なし学習も同時に検討した.この成果は研究会と3月の言語処理学会年次大会で発表した.
|