2002 Fiscal Year Annual Research Report
タグ付きコーパスとタグなしコーパスの相補的利用による言語学習に関する研究
Project/Area Number |
13680429
|
Research Institution | IBARAKI UNIVERSITY |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 助教授 (10250987)
|
Keywords | 教師なし学習 / Co-training / EMアルゴリズム / 機械学習 / 語義判別問題 / SENSEVAL-2 / ファジィクラスタリング |
Research Abstract |
自然言語処理では個々の問題を分類問題として定式化し,帰納学習の手法により解決するというアプローチが大きな成功をおさめている.しかしそこには帰納学習で必要とされる訓練データを構築するコストが高いという問題がある.自然言語処理での訓練データとはタグ付きコーパスに対応する.本研究の目的は,この問題に対処するために,タグなしコーパスを併用することである. 本研究は教師なし学習の一種である.教師なし学習は近年複数観点を利用した手法が主流である.特にBlumらによるCo-trainingとNigamらによるEMアルゴリズムを利用した手法が主流である.これらの手法はともに文書分類を対象に提案されているので,自然言語処理の中心課題である語義判別問題に応用できるかどうかは明らかではない. 昨年度は主にCo-trainingの手法を検討した.特にCo-trainingを適用する際にネックとなる素性の独立性を緩和する手法を提案した.本年度,この成果を国際会議で発表した. また本年度は,EMアルゴリズムの手法に焦点を当てた.日本語SENSEVAL2の辞書タスクを用いて,提案手法の評価を行った.まずNigamらの手法を語義判別問題に応用できることを実装して示した.この結果は論文誌に採録された.そして,その際に単純に精度が向上しない問題もあることを示した.その解決手法として交差検定とアドホックな規則を用いる手法を提案した.提案した手法を用いることで,現在公になっている辞書タスクの最高正解率を実現することができた.この成果は研究会で発表し,国際会議での採録も決定した.日本語論文誌へも投稿し,現在査読中である. またEMアルゴリズムとクラスタリングの関係を調査し,ファジィクラスタリングからの教師なし学習も同時に検討した.この成果は研究会と3月の言語処理学会年次大会で発表した.
|
Research Products
(6 results)
-
[Publications] Hiroyuki Shinnou: "Learning of word sense disambiguation rules by Co-training, checking co-occurrence of features"LREC-02. 4. 1380-1384 (2002)
-
[Publications] 新納浩幸, 佐々木稔: "EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習"情報処理学会自然言語処理研究会. 152-8. 51-58 (2002)
-
[Publications] 新納浩幸, 佐々木稔: "情報検索手法を利用した語義判別問題の高速解法"情報処理学会自然言語処理研究会. 152-9. 57-62 (2002)
-
[Publications] 高橋篤史, 新納浩幸: "ファジイクラスタリングを用いた語義判別規則の教師なし学習"言語処理学会第9回年次大会. 306-309 (2003)
-
[Publications] 新納浩幸: "EMアルゴリズムを用いた教師なし学習の日本語翻訳タスクへの適用"自然言語処理. 10(発表予定). (2003)
-
[Publications] Hiroyuki Shinnnou, Minoru Sasaki: "Unsupervised learning of word sense disambiguation rules by estimating an optimum iteration number in the EM algorithm"Seventh Conference on Natural Language Learning. (発表予定). (2003)