2001 Fiscal Year Annual Research Report
タグ付きコーパスとタグなしコーパスの相補的利用による言語学習に関する研究
Project/Area Number |
13680429
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 助教授 (10250987)
|
Keywords | 教師なし学習 / Co-training / EMアルゴリズム / 機械学習 / 語義判別問題 / SENSEVAL-2 |
Research Abstract |
自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法により解決するというアプローチが大きな成功をおさめている.しかしそこには帰納学習で必要とされる訓練データを構築するコストが高いという問題がある.自然言語処理ではこの訓練データとはタグ付きコーパスに対応する.本研究の目的は,この問題に対処対処するために,タグなしコーパスを利用することである. 本研究は教師なし学習の一種である.教師なし学習は近年複数観点を利用した手法が主流である.特にBlumらによるCo-trainingとNigamらによるEMアルゴリズムを利用した手法が主流である.これらの手法はともに文書分類を対象に提案されているので,自然言語処理の中心課題である語義判別に応用できるかどうかはあきらかではない. 本年度は,この2つの手法を調査し,語義判別問題に利用することを検討し,幾つかの実験を行い,その成果を発表した. まずCo-trainingについての調査を行った.Co-trainingはブースティングと密接な関係があることから,ブースティングの実装システムを作り,Co-trainingの実装システムの足掛かりとした.次にCo-trainingを語義判別問題へ直接適用したシステムを作成し,語義判別のコンテスト形式の国際会議SENSEVAL-2に参加した.結果はまずまずであったが,幾つかの問題も見つかった.それは,独立な素性を設定することが難しいことと,それが共起性に起因することであった.そのために事例の追加の際に共起性のチェックを行う手法をを提案し発表した. 次にEMアルゴリズムはその実装システムを作成し,SENSEVAL-2の課題問題で評価した.この成果は3月の言語処理学会年次大会で発表予定である.
|
Research Products
(5 results)
-
[Publications] 新納浩幸: "日本語形態素解析の分類問題への変換とその解法"情報処理学会論文誌. 42-9. 2221-2228 (2001)
-
[Publications] 新納浩幸: "決定リストを弱学習器としたアダブーストによる日本語単語分割"自然言語処理. 8-2. 3-18 (2001)
-
[Publications] 新納浩幸: "SENSEVAL2日本語翻訳タスクに向けて作成した語義判別学習システムIbaraki"電子情報通信学会言語とコミュニケーション研究会. NLC-. 25-30 (2001)
-
[Publications] 新納浩幸: "素性間の共起性を検査するCo-trainingによる語義判別規則の学習"情報処理学会自然言語処理研究会. 145-5. 29-36 (2001)
-
[Publications] Hiroyuki Shinnou: "Detection of errors in training data by using a decision list and Adaboost"IJCAI-2001 workshop"Text Learning:Beyond Supervision". 61-65 (2001)