半教師有りクラスタリング手法を用いた語義別用例の収集
Project/Area Number |
19011001
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Humanities and Social Sciences
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 Ibaraki University, 工学部, 准教授 (10250987)
|
Co-Investigator(Kenkyū-buntansha) |
佐々木 稔 茨城大学, 工学部, 講師 (60344834)
|
Project Period (FY) |
2007 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥4,400,000 (Direct Cost: ¥4,400,000)
Fiscal Year 2008: ¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 2007: ¥2,400,000 (Direct Cost: ¥2,400,000)
|
Keywords | 半教師有り / クラスタリング / 語義別用例 / 能動学習 / 素性 / 距離学習 / 名詞間距離 / シソーラス |
Research Abstract |
本研究の目的は、語義別用例を収集するシステムを作成すること、またそのシステムを利用して、本領域で作成されるコーパスを評価することである。作成するシステムでは半教師有りクラスタリング手法を用いる。昨年度は手法の提案とシステムの作成を行った。本年度はシステムの改良及び精度向上のための研究を行った。また本領域で作成されたコーパスの評価も行った。システムの改良としては検索処理の部分を文字列から単語に直すことで、動詞に対する語義別用例も収集することができるようになった。また半教師の部分でユーザからの入力が必要であるが、その部分に以前の入力を修正する機能を付加した。またシステムの精度向上のためには、用例間距離の測定手法と名詞間の距離の設定手法が鍵であると考え、それらの研究に取り組んだ。用例間距離の測定手法としては線型モデルのパラメータ学習という枠組みを提案した。また名詞間の距離については部分的にクラスタリングされた名詞を種として、全名詞の対する距離を測定する手法を試みた。コーパスの評価としては、語義別用例を収集し、語義の曖昧性解消の学習や用例の語義に基づくクラスタリングで利用できるようにした。同時にコーパスの特徴も考察した。成果としては今年度、国際会議3件、研究会5件の論文発表を行った。
|
Report
(2 results)
Research Products
(19 results)