Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2004: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2003: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2002: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Research Abstract |
申請者は,研究計画に従い、以下の手法の研究を行った. 1.注釈無しコーパスから獲得したノイズを含む辞書知識から信頼性の高い辞書を選別する手法 2.注釈つきコーパスから獲得したスパースな辞書知識をスムージングにより補完する手法 まず1では,昨年度考案した手法を改良し,人手で書かれた辞書資源のような単語と下位範疇化フレーム(SCF)の共起を含む辞書を増補することを目的として,既存手法により生コーパスから獲得したSCFから,信頼性が高いSCFを選別する手法の評価を行った.この手法では,増補対象の辞書中の単語と生コーパスから獲得した辞書中の未知語とを,単語が取るSCFのパターンに従いクラスタリングし,得られた単語クラスを用いて未知語のSCFの選別を行う.実験では,人手で書かれたLTAG文法とHPSG文法を用いて,生コーパスから獲得した未知語のSCFから信頼性が高いSCFを選別できることを示した.この研究成果は、カナダで開催された国際ワークショップTAG+7,およびスペインで開催された国際会議ACL2005の学生セッションで,それぞれ発表を行った。 次に2では,注釈つきコーパスから獲得した辞書資源のような単語とSCFの共起の頻度情報を含む辞書に対し,共起イベントの確率モデルであるPLSAに基づく補間モデルを用いたスムージングにより,単語とSCFの適切な共起確率を与える手法を提案した.単語とSCFの適切な共起確率を得ることが出来れば,足切りにより適切な辞書を構築することが出来る.実験では,注釈つきコーパスから獲得されたHPSG文法の単語とSCFの共起確率に,提案手法を適用し,パープレキシティの観点でより良い共起確率が得られることを示した. これらの研究により,前年度までの研究結果と合わせて,実世界の文書を解析可能なHPSG文法を実アプリケーションに用いるための土台を整えることができたといえる.
|