• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

MSLR法における未知語処理に関する研究

Research Project

Project/Area Number 11780254
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionTokyo Institute of Technology

Principal Investigator

白井 清昭  東京工業大学, 大学院・情報理工学研究科, 助手 (30302970)

Project Period (FY) 1999 – 2000
Project Status Completed (Fiscal Year 2000)
Budget Amount *help
¥2,200,000 (Direct Cost: ¥2,200,000)
Fiscal Year 2000: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1999: ¥1,400,000 (Direct Cost: ¥1,400,000)
KeywordsMSLR法 / 形態素解析 / 構文解析 / 未知語処理 / LR表
Research Abstract

本研究課題では,MSLR法において今までほとんど考慮されていなかった未知語処理を行うことを目的とする.MSLR法とは,形態素解析と構文解析を同時に行うために構文解析手法のひとつである一般化LR法を拡張した手法である.
MSLR法における未知語処理で一番問題となるのは,未知語の境界を認定することである.ひらがな,カタカナなどの文字種が異なるところに未知語の境界がある場合は,未知語の境界を認定することは容易である.しかし,「カヤぶきの屋根」において,「カヤぶき」が未知語であるように,未知語の境界の前後の文字種が同じ場合は,その認定は難しい.本年度は,EDRコーパス中に含まれるEDR日本語単語辞書に登録されていない単語を未知語とみなし,その境界の前後の文字種が同じであるものを調査し,その特徴を分析した.
まず,未知語の境界の前後の文字種がともにカタカナ,記号,数字となる未知語はほとんど見られなかった.また,未知語の境界の前後の文字種がともにひらがなの場合,未知語の前には助詞,助動詞「た」,活用語の終止形が,未知語の後には助詞,助動詞「だ」が現われることがほとんどであることがわかった.したがって,入力文中にひらがなが連続している場合,全ての位置を未知語の境界の候補として解析する代わりに,上記の条件を満たず位置のみを未知語の境界の候補とすれば,解析効率を大幅に向上させることができる.MSLR法においては,未知語の前の単語の品詞情報はスタックトップから,未知語の後の単語の品詞情報は先読み記号から読み取れるので,提案手法は容易に実装することができる.

Report

(2 results)
  • 2000 Annual Research Report
  • 1999 Annual Research Report

URL: 

Published: 1999-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi