2007 Fiscal Year Annual Research Report
半教師有りクラスタリング手法を用いた語義別用例の収集
Project/Area Number |
19011001
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 Ibaraki University, 工学部, 准教授 (10250987)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 稔 茨城大学, 工学部, 講師 (60344834)
|
Keywords | 半教師有り / クラスタリング / 語義別用例 / 能動学習 / 素性 |
Research Abstract |
本研究の目的は、語義別用例を収集するシステムを作成すること、またそのシステムを利用して、本領域で作成されるコーパスを評価することである。作成するシステムでは半教師有りクラスタリング手法を用いる。システムの作成を本年度行い、コーパスの評価を次年度行う。本年度はまず語義別用例収集のための半教師有りクラスタリングの手法を提案し、次にその手法を実装させた語義別用例収集システムを作成した。提案した半教師有りクラスタリング手法は、まず通常のクラスタリング手法を用いて、多数の小さなクラスタにデータを分割する。次に各クラスタから代表点を求め、代表点どうしが同じクラスタに属するかどうかをユーザに尋ねる。そのユーザからのフィードバック情報から多数のクラスタが統合されてゆく。この手法は語義曖昧性解消のタスクを用いて、その有効性や問題点を明らかにした。この内容は研究会で口頭発表を行った。そこで明らかになった問題点として、べースとなるクラスタリング手法の改良や用例間距離の精密化がある。クラスタリング手法の改良に関して、クラスタリング手法に関する論文発表を8件行った。主にNMFを用いたもの、スペクトラルクラスタリングを用いたものである。システムの実装に関してはPerlのCGIを用いて作成した。検索エンジン、核となるクラスタリングエンジンは既存のものを利用した。また用例を取り出すものとなるコーパスとして、本領域で構築した「白書」を利用した。これによって来年度のコーパスの評価に繋がる。また実装したシステムを試し、提案手法の有効性を再確認できた。
|
Research Products
(10 results)