Project/Area Number |
07780302
|
Research Category |
Grant-in-Aid for Encouragement of Young Scientists (A)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 助手 (10250987)
|
Project Period (FY) |
1995
|
Project Status |
Completed (Fiscal Year 1995)
|
Budget Amount *help |
¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1995: ¥800,000 (Direct Cost: ¥800,000)
|
Keywords | コーパス / 慣用表現 / 定型表現 / 知識獲得 |
Research Abstract |
本研究の目的は「あごで使う」や「名をあげる」といった動詞句型慣用表現をコーパスから自動抽出する手法を提案することであった.本年度は上記問題に対して2つの手法を考案し,それぞれを学会誌に発表した。 1つはコーパスから得られた共起データを使って,名詞と動詞の共起の強さを測る新たな手法を提案し,その測定方法によって慣用表現を抽出した.具体的には「NをVする」というタイプの表現をコーパスから収集し,Vを固定した場合に,共起するNの頻度分布から「NをVする」の共起の強さ(Type1)を測る.また同時にNを固定した場合に,共起するVの頻度分布から「NをVする」の共起の強さ(Type2)を測る.この動詞固定の共起の強さ(Type1)と名詞固定の共起の強さ(Type2)の両者の基準各々から抽出した慣用表現は重複がほとんどなく,さらにそれぞれの基準による抽出は,従来の相互情報量による抽出と同程度の抽出力がある.つまりそれぞれの基準による抽出を加え合わせることで,従来手法よりも広い範囲の慣用表現が抽出できる. もう1つは,慣用表現の類義語への置き換え不可能性を利用した手法である.まず上記と同じようにコーパスから「NをVする」というタイプの表現を収集し,次にVを固定した場合に,Vと共起するNの集合の中で,類似関係を持たない名詞N'を選び,「N'をVとする」という表現を慣用表現として抽出する手法である.類義語の判定には分類語彙表を利用した.この手法では正解率が15%程度だが,再現率が70%弱と比較的高くなることを示した. どちらの手法も慣用表現の緩い特徴を利用しているだけなので,抽出に限界があることが明らかになった.改良としては上記手法を統合して慣用表現かどうかを判断するような手法が有効だと思われる.またどちらの手法も共起データを利用しているが,語義まで考慮した共起データでないと避けられない誤りが多く,語義まで考慮して共起データを作成することも大きな改良になる.これらの点が今後の課題である.
|
Report
(1 results)
Research Products
(2 results)